我的二娃还有不到一周出生,我有一种预感,他的智能发展的程度将会永远不能超过同时期的人工智能。

就拿 GPT-4 宣传片中的例子来说:

问:把绳子切断会发生什么?答:气球会飞走。
这么一问一答,需要这个 GPT-4 至少理解这些事情:
- 识别图片中的物体:气球、绳子、天空、石头、路、树木等。
- 判断物体的状态和关系,比如:气球在空中朝向上,气球的绳子绑在了石头上。
- 理解输入文本的意思。
- 将文本与图片相关联起来,文本中提到了绳子,那么图片中的绳子状态以及与它相关的东西就是关键。
- 输入的问题问的是一个未发生的假设性情景,那么它需要综合以上信息以及一般常识并产生出新信息。
GPT-4 的能力远超这个例子中所能展现出来的,但单这个例子就已经够让人震惊了。而 GPT-4 在半年多以前就已经完成训练了。
相比之下,我觉得我目前生活中各种“智能”产品就像小学生碰上了研究生。
比如,现在各大相册服务(比如 Apple Photos )都有照片内的人物和物品识别功能,比如我直接搜索文本“西瓜”,就会出现包含西瓜的图片。这个功能在前几年还是很酷炫的先进功能,但放在 GPT-4 里只能算是最最基础的能力(上面的第1步),并且即使是识别物品, GPT-4 做得也更强,上面那张图只是 GPT-4 的一个很简单的例子,下面是另一个更复杂的:
别的不说,光是识别物体这一项,我就不信当前任何相册服务能在这张图中识别出“VGA connector with a small Lightning connector at the end”。
Siri 本来能力就不怎么样,现在跟 GPT-4 一比简直不像是一个时代的产物,基本除了最基本的任务(设定计时器、闹钟之类的)一般也不会有人去用它,说实话现在所有语音助手给人的感觉还是很有仪式感地“输入命令”而不是“与一个智能对话”。
我的索尼无反有眼控对焦(画面中出现人眼就自动对焦在人眼上),前两年的新机型支持动物的眼控对焦感觉了不得了,但脑补一下 GPT-4 的能力如果拿出一丁点(无需联网的)放在相机里能有多大进步。
Zojirushi 电饭煲宣传用“高级模糊逻辑”煮饭,也不知道是个什么算法,动辄两三百美元一个,十多年了似乎也没什么进步,也没怎么降价,这要是再过几年,里面不集成个真正高级的 AI 还好意思卖300多刀?
输入法预测更是如此,现在的输入法有简单的纠错、词语预测功能,而且已经相当高效了,但目前利用了 GPT 的各种工具已经展示了整句、整段预测的能力,不可同日而语。
我的 Ring 监控摄像头可以捕捉动作然后储存起来,现在又在推广一个 Smart Alarm 的功能,可以针对人、其他动作、包裹等分别设置是否录像、是否提醒等,算是有一点 smart 的元素。可是如果我想问门口这个搞院子的园丁的车是什么时候来的、什么时候走的?垃圾桶是什么时候被人动过的?后院这棵树是什么时候被浣熊弄歪的?对于这些问题,目前我只能翻看过去的录像然后手动找出答案。以后像 GPT 这样的能力应用了以后,能不能办到我直接用自然语言问这些问题,它就能给出答案呢?
人工智能对人类社会的影响将会非常深刻,我的眼界不足以宏大叙事,只是粗浅举了几个局限在目前我日常生活中能碰到的小例子。
本来我觉得 ChatGPT 虽然强大,但是集成在其他产品中还需要一段路要走。结果 Bing 就立刻推出了 Bing Chat ,结合了 GPT 的智能和 Bing 的实时互联网资料库。 Microsoft 365 Copilot 也展示了 GPT 如何以多种形式无缝集成在产品中(这个东西要是集成在 PowerBI 里,我们 Tableau 就要完了)。 Visual Studio Code 里的 AI 辅助工具早已出现了,如今 GitHub Copilot X 集成了 GPT-4 提供从问问题、写代码到命令行的全方位辅助, Cursor 则是整个利用 GPT-4 能力的代码编辑器,前一阵刚出的 ChatGPT Plugin 更是展示了无限的拓展性。利用 GPT 的 API 做出的各种工具在这几周有井喷的趋势。
我心想,我没参与制作这个东西,也不懂 AI 的原理,但至少应该知道它能做什么、怎么用吧。于是前一阵开始尝试使用 Bing Chat ,这两天也开了 ChatGPT 会员用 GPT-4 尝试了一下。首先是帮朋友完成了动态规划的作业,五道题每道都回答得很好,并且也有详细解释。有一道题的代码中间有一个小错误,我只是说了一句“你的代码有错误”,没指出更具体的,它就立刻更正了,而且直接说明了具体改了哪里。这两天为我的 React component 写 Unit Test,用 GPT-4 生成,结果它生成的各种 test case 非常全面且合理。我直接把我的 component 的代码复制过去,其中有些 subcomponent 和 dependencies 的代码它不知道,但是它也能作出推断而且合理性惊人。如果我在接下来的对话中补充了这些代码,那它也能对 test 的代码进行完善,比如应该怎么 mock 。它生成的代码虽然大概率不能直接运行,但是节省了大量时间。我在这么撸了两天 unit tests 之后突然意识到,如果说 AI 对于该如何生成 unit tests 的逻辑判断得如此清晰合理,只是一些技术细节让生成的代码无法直接运行,是不是这意味着大多数情况下根本就不需要 unit tests 了呢?在测试的一步,直接让 AI 判断需要测试的 case ,然后运行被测代码并检验结果不就行了?当然 AI 不能代替所有 unit tests ,但是对于像我这种只是几个 React component 的代码足够了。它无法完全代替程序员,但是可以节省大量低级劳动的时间,以后可能一个 SDE II 能做原来五个 SDE I 的工作。
AI 的发展这些年早就已经展现了惊人的速度, AI 写文章、绘画、生成视频、生成声音都已经不是新闻了,但是 ChatGPT 的出现让人第一次觉得 AI 能被如此广泛的人群以极低的门槛真正产生利用价值。
不出意外地, GPT-4 刚出来,各种担心、反对的声音就都冒出来了。我就很反感这种人,有新事物出现了,首先无脑质疑一下,显得自己多有批判性思维。二战时期人类黑科技井喷,当然并不是说现在为了科技发展就可以应用战时的道德标准了,但是不能别人好不容易做出了突破性成果,你就站在道德高地让人家束手束脚。
用了这么长时间,我已经习惯了 GPT-4 的能力,也发现了目前 GPT-4 的很多局限性,但是了解其局限性才能更好得去利用。 AI 的高速发展已经成了定势,未来可期。