一点关于 ChatGPT 的思考

注：本文共更新了三节，分别写于 3 月 18 日、4 月 4 日、4 月 9 日，相关信息可能有时效性。

从去年 12 月初开放给大众免费试用至今，ChatGPT 接入大众生活已经三个月时间了。这段时间中文互联网上相关的推文铺天盖地，自己也有一点点零零碎碎的思考，写一篇博客整理一下。

成功现状

AI 作画爆火的时候，对我自己的生活没有产生什么影响；而这次 ChatGPT 的成功，某种意义上是因为它是一种处理语言类工作的工具，而语言是人类社会传输最广泛的数据形式。
ChatGPT 展示了大语言模型的一种商业可行性，它记忆广、速度快，虽然没有安全性/准确性的保障，但是只要在某种特定任务下超过现有工具/人，资源必然会涌入（人、算力、数据）。

正面影响

除了文字处理能力，我觉得大语言模型的另一特点是其参数量带来的记忆能力，最终影响的是知识的“传播”（让我联想到一些知识付费类的职业）。那么往大了说，它对社会的影响力可能会类似于互联网？
LLM 大大提高了各种知识的学习效率，上手一个新技术栈的成本更低了，还可以直接给 LLM 提需求绕开正则表达式这种符号工具；另一方面“接需求-查手册-打补丁”这样的劳动密集型岗位可能就危险了。
对于教育界来说，如果通过 LLM 学习知识的效率，超过了传统模式的大学，那么…是否会有一些变革呢？

负面影响

一个需要担忧的点是数据安全，训练数据中有危害性言论（歧视、犯罪）或者是机密数据（商业），可能被有意无意地利用。如何做好 UGC 和 AIGC 的更新/监管/清洗？如果未来大公司为了安全都训一个自己的 LLM，那又丧失了规模效应？
另一个可能产生的问题是它会隐性地加剧社会不平等（就如历史上其他技术变革），如果新的模型只适用于某些特权群体/组织，那么现有的社会鸿沟和不平等自然会放大。

应对方法

有时候会觉得，社会生产效率提高了，那人类是不是就能享福了呢？长大了发现显然不是这样 hh
既然 ChatGPT 只是一种语言处理工具，那么自然不影响知识的“创造”，不能证明未解决的数学猜想，也不能提出没有人发现过的科学发现。同时作为一种工具，它自然也不会“取代人”，可能是善于利用工具的人来取代不会利用工具的人？maybe.
总之，发挥人类特长——利用工具！现阶段它已经是一种很完善的工具类型了（至少目前足够满足我的期待），积极用它优化自己的工作流吧！

更新在读论文 “Sparks of Artificial General Intelligence” 后（微软 154 页报告：与 AGI 的第一次接触）

GPT-4 的能力

最近发布的 GPT-4 很强大，除了掌握语言外，它可以解决跨越数学、编码、视觉、医学、法律、心理等领域的任务，而无需任何特殊 prompt。但是它有些问题上又会犯离谱的小错误，例如在一些开放问题下会胡编乱造，让人怀疑它缺乏真正的“理解”。

为了尝试回答“GPT-4 是否达到真的智能”，作者们根据 94 年认知心理学上的定义设计了一系列测试，来评估 GPT-4 的水平。为了避免测试集出现在先前收集的训练集中，作者们设计了很多天马行空的问题（非常好奇他们出题时的精神状态）。一些有意思的题目和结果包括：

用莎士比亚戏剧的文体，证明有无限多的素数
模仿甘地的口吻，写一封信支持电子来选举美国总统（是的就是那个粒子）
解答 2022 IMO 中一道数学证明题（表现出非常缜密的“逻辑”）
参加 LeetCode 上的亚马逊公司模拟面试（满分通过）
执行自然语言伪代码并给出结果，很成功（仔细想，如果能够执行伪代码，那不就是真正理解了这门语言吗）
根据一段对话材料来理解别人、理解自己、揣测心态，尝试进行劝架、欺骗（人类的数据竟然也包含了这一类技能）
扮演一位老师，评价上述问题中自己和 ChatGPT 的回答表现

可能的研究方向

GPT-4 也有一些回答得很糟糕的问题，例如数学计算、宏观规划。作者们将其归因于 next-word-prediction 这个模式的固有缺陷：依赖一个局部且贪婪的过程来生成下一个单词，而不需要对任务或输出进行任何全局或深入的理解，导致它缺乏规划、回溯能力和推理能力。因此该模型擅长生成流畅连贯的文本，但在解决复杂或者创造性问题方面就受到限制：有些修修改改的问题需要回溯，但这个模式限制其必须要进行超长期规划；有些复杂计算需要“草稿纸”或者说 working memory，如果要求它快速给答案经常会出错（经典地在 prompt 里加上“一步一步来”就能提高正确率）。

其他一些缺陷和可能的方向还包括：回答置信度的标定；特定领域训练数据的缺失；容量非常受限，没办法个性化（只能作为 meta-prompt）；持续学习、透明/可解释性/一致性。

对 AGI 的定义

自己读的过程中，一方面觉得它牛得很，真的能完成日常任务；另一方面也像大家一样质疑整套系统仍然是一个大黑盒，这篇文章只能算一份详细的性能评估报告（Empirical Study），很多地方也有点故弄玄虚的味道（可能是为了 PR）。

作者也明确说，GPT-4 展现的很多新能力的来源和机制目前都很难识别，这篇文章的主要目的就是分享它的能力和局限性：GPT-4 虽然在许多任务上已经达到或超过人类水平，但总体而言其智能模式明显不像人类，它展现出的能力让大家开始思考如何定义智能。这也是这篇文章给我感到的最大不同点——花了大量的篇幅来说明如何定义 AGI，如何找到独立、全面的测试集来做 benchmark。

不过这样的测试给我一种感觉，全文只是对整个数据集中的人类知识库在做拆解和分析，毕竟 GPT-4 本质上没有产生新内容。这也是 LLM 仍未实现的一个目标：产生新的知识，比如证明新的数学定理、作出新的物理发现。

另一个收获就是，在这篇文章之前，大家会问：“GPT-4 是否真正理解了所有这些概念？”而看完这些种类繁多的测试之后，我发现它好像已经达到了某种意义上的工具的定义。现在，我关心的问题变成了 “真正的智能比 GPT-4 还强在哪里，或者说我们还要求 GPT-N 做什么？”

更新在听播客 “人类本质是不精确的复读机：与李如一和重轻闲聊 ChatGPT” 后

记录一些有趣的观点：

语言的基础是科技文化等等，因此在不同发展时期、社会环境下的语言都有其特殊含义。「所有的词不达意都是在达某种意」。语言在承载意义之外的意义，而 LLM 只是在重组一些事实描述。
给 LLM 的语料决定了它们的“智力”上限，再多训练也只是在过拟合，在“努力生成流畅的句子”。
损失函数没有定义如何给出 opinion，它们也就注定了不会有主动性。而算法缺少的这种所谓 preference 和 bias，可能是很重要的？
少数派在新技术前的权力与权利，这一点在机器学习领域上表现更明显。身份政治无处不在，对 AI 是一种利好吗？
经常说有了新技术之后，人就可以被解放出来，做真正重要的事情。但是从历史上看，结局好像并非如此，最后只是把人又一次进行三六九等划分。
面对大语言模型，似乎我们有点太「语言中心主义」了，其实还有更多非语言的部分，至少目前还没有暴露给 AI。或者说还有非常大量的知识不在互联网上，还没有数字化。
人类的本质是复读机，是不精确的复读机，而不精确的这一部分，便是艺术文化本身。

成功现状#

正面影响#

负面影响#

应对方法#

GPT-4 的能力#

可能的研究方向#

对 AGI 的定义#

扩展阅读#