5月 | 2023 | MGhostSoft

我的二娃还有不到一周出生，我有一种预感，他的智能发展的程度将会永远不能超过同时期的人工智能。

就拿 GPT-4 宣传片中的例子来说：

问：把绳子切断会发生什么？答：气球会飞走。

这么一问一答，需要这个 GPT-4 至少理解这些事情：

识别图片中的物体：气球、绳子、天空、石头、路、树木等。
判断物体的状态和关系，比如：气球在空中朝向上，气球的绳子绑在了石头上。
理解输入文本的意思。
将文本与图片相关联起来，文本中提到了绳子，那么图片中的绳子状态以及与它相关的东西就是关键。
输入的问题问的是一个未发生的假设性情景，那么它需要综合以上信息以及一般常识并产生出新信息。

GPT-4 的能力远超这个例子中所能展现出来的，但单这个例子就已经够让人震惊了。而 GPT-4 在半年多以前就已经完成训练了。

相比之下，我觉得我目前生活中各种“智能”产品就像小学生碰上了研究生。

比如，现在各大相册服务（比如 Apple Photos ）都有照片内的人物和物品识别功能，比如我直接搜索文本“西瓜”，就会出现包含西瓜的图片。这个功能在前几年还是很酷炫的先进功能，但放在 GPT-4 里只能算是最最基础的能力（上面的第1步），并且即使是识别物品， GPT-4 做得也更强，上面那张图只是 GPT-4 的一个很简单的例子，下面是另一个更复杂的：

别的不说，光是识别物体这一项，我就不信当前任何相册服务能在这张图中识别出“VGA connector with a small Lightning connector at the end”。

Siri 本来能力就不怎么样，现在跟 GPT-4 一比简直不像是一个时代的产物，基本除了最基本的任务（设定计时器、闹钟之类的）一般也不会有人去用它，说实话现在所有语音助手给人的感觉还是很有仪式感地“输入命令”而不是“与一个智能对话”。

我的索尼无反有眼控对焦（画面中出现人眼就自动对焦在人眼上），前两年的新机型支持动物的眼控对焦感觉了不得了，但脑补一下 GPT-4 的能力如果拿出一丁点（无需联网的）放在相机里能有多大进步。

Zojirushi 电饭煲宣传用“高级模糊逻辑”煮饭，也不知道是个什么算法，动辄两三百美元一个，十多年了似乎也没什么进步，也没怎么降价，这要是再过几年，里面不集成个真正高级的 AI 还好意思卖300多刀？

输入法预测更是如此，现在的输入法有简单的纠错、词语预测功能，而且已经相当高效了，但目前利用了 GPT 的各种工具已经展示了整句、整段预测的能力，不可同日而语。

我的 Ring 监控摄像头可以捕捉动作然后储存起来，现在又在推广一个 Smart Alarm 的功能，可以针对人、其他动作、包裹等分别设置是否录像、是否提醒等，算是有一点 smart 的元素。可是如果我想问门口这个搞院子的园丁的车是什么时候来的、什么时候走的？垃圾桶是什么时候被人动过的？后院这棵树是什么时候被浣熊弄歪的？对于这些问题，目前我只能翻看过去的录像然后手动找出答案。以后像 GPT 这样的能力应用了以后，能不能办到我直接用自然语言问这些问题，它就能给出答案呢？

人工智能对人类社会的影响将会非常深刻，我的眼界不足以宏大叙事，只是粗浅举了几个局限在目前我日常生活中能碰到的小例子。

本来我觉得 ChatGPT 虽然强大，但是集成在其他产品中还需要一段路要走。结果 Bing 就立刻推出了 Bing Chat ，结合了 GPT 的智能和 Bing 的实时互联网资料库。 Microsoft 365 Copilot 也展示了 GPT 如何以多种形式无缝集成在产品中（这个东西要是集成在 PowerBI 里，我们 Tableau 就要完了）。 Visual Studio Code 里的 AI 辅助工具早已出现了，如今 GitHub Copilot X 集成了 GPT-4 提供从问问题、写代码到命令行的全方位辅助， Cursor 则是整个利用 GPT-4 能力的代码编辑器，前一阵刚出的 ChatGPT Plugin 更是展示了无限的拓展性。利用 GPT 的 API 做出的各种工具在这几周有井喷的趋势。

我心想，我没参与制作这个东西，也不懂 AI 的原理，但至少应该知道它能做什么、怎么用吧。于是前一阵开始尝试使用 Bing Chat ，这两天也开了 ChatGPT 会员用 GPT-4 尝试了一下。首先是帮朋友完成了动态规划的作业，五道题每道都回答得很好，并且也有详细解释。有一道题的代码中间有一个小错误，我只是说了一句“你的代码有错误”，没指出更具体的，它就立刻更正了，而且直接说明了具体改了哪里。这两天为我的 React component 写 Unit Test，用 GPT-4 生成，结果它生成的各种 test case 非常全面且合理。我直接把我的 component 的代码复制过去，其中有些 subcomponent 和 dependencies 的代码它不知道，但是它也能作出推断而且合理性惊人。如果我在接下来的对话中补充了这些代码，那它也能对 test 的代码进行完善，比如应该怎么 mock 。它生成的代码虽然大概率不能直接运行，但是节省了大量时间。我在这么撸了两天 unit tests 之后突然意识到，如果说 AI 对于该如何生成 unit tests 的逻辑判断得如此清晰合理，只是一些技术细节让生成的代码无法直接运行，是不是这意味着大多数情况下根本就不需要 unit tests 了呢？在测试的一步，直接让 AI 判断需要测试的 case ，然后运行被测代码并检验结果不就行了？当然 AI 不能代替所有 unit tests ，但是对于像我这种只是几个 React component 的代码足够了。它无法完全代替程序员，但是可以节省大量低级劳动的时间，以后可能一个 SDE II 能做原来五个 SDE I 的工作。

AI 的发展这些年早就已经展现了惊人的速度， AI 写文章、绘画、生成视频、生成声音都已经不是新闻了，但是 ChatGPT 的出现让人第一次觉得 AI 能被如此广泛的人群以极低的门槛真正产生利用价值。

不出意外地， GPT-4 刚出来，各种担心、反对的声音就都冒出来了。我就很反感这种人，有新事物出现了，首先无脑质疑一下，显得自己多有批判性思维。二战时期人类黑科技井喷，当然并不是说现在为了科技发展就可以应用战时的道德标准了，但是不能别人好不容易做出了突破性成果，你就站在道德高地让人家束手束脚。

用了这么长时间，我已经习惯了 GPT-4 的能力，也发现了目前 GPT-4 的很多局限性，但是了解其局限性才能更好得去利用。 AI 的高速发展已经成了定势，未来可期。

MGhostSoft

清醒一辈子，也就那样子

Month: 2023年5月

GPT-4 有感