注:本文共更新了三节,分别写于 3 月 18 日、4 月 4 日、4 月 9 日,相关信息可能有时效性。
从去年 12 月初开放给大众免费试用至今,ChatGPT 接入大众生活已经三个月时间了。这段时间中文互联网上相关的推文铺天盖地,自己也有一点点零零碎碎的思考,写一篇博客整理一下。
成功现状
- AI 作画爆火的时候,对我自己的生活没有产生什么影响;而这次 ChatGPT 的成功,某种意义上是因为它是一种处理语言类工作的工具,而语言是人类社会传输最广泛的数据形式。
- ChatGPT 展示了大语言模型的一种商业可行性,它记忆广、速度快,虽然没有安全性/准确性的保障,但是只要在某种特定任务下超过现有工具/人,资源必然会涌入(人、算力、数据)。
正面影响
- 除了文字处理能力,我觉得大语言模型的另一特点是其参数量带来的记忆能力,最终影响的是知识的“传播”(让我联想到一些知识付费类的职业)。那么往大了说,它对社会的影响力可能会类似于互联网?
- LLM 大大提高了各种知识的学习效率,上手一个新技术栈的成本更低了,还可以直接给 LLM 提需求绕开正则表达式这种符号工具;另一方面“接需求-查手册-打补丁”这样的劳动密集型岗位可能就危险了。
- 对于教育界来说,如果通过 LLM 学习知识的效率,超过了传统模式的大学,那么…是否会有一些变革呢?
负面影响
- 一个需要担忧的点是数据安全,训练数据中有危害性言论(歧视、犯罪)或者是机密数据(商业),可能被有意无意地利用。如何做好 UGC 和 AIGC 的更新/监管/清洗?如果未来大公司为了安全都训一个自己的 LLM,那又丧失了规模效应?
- 另一个可能产生的问题是它会隐性地加剧社会不平等(就如历史上其他技术变革),如果新的模型只适用于某些特权群体/组织,那么现有的社会鸿沟和不平等自然会放大。
应对方法
- 有时候会觉得,社会生产效率提高了,那人类是不是就能享福了呢?长大了发现显然不是这样 hh
- 既然 ChatGPT 只是一种语言处理工具,那么自然不影响知识的“创造”,不能证明未解决的数学猜想,也不能提出没有人发现过的科学发现。同时作为一种工具,它自然也不会“取代人”,可能是善于利用工具的人来取代不会利用工具的人?maybe.
- 总之,发挥人类特长——利用工具!现阶段它已经是一种很完善的工具类型了(至少目前足够满足我的期待),积极用它优化自己的工作流吧!
更新在读论文 “Sparks of Artificial General Intelligence” 后(微软 154 页报告:与 AGI 的第一次接触)
GPT-4 的能力
最近发布的 GPT-4 很强大,除了掌握语言外,它可以解决跨越数学、编码、视觉、医学、法律、心理等领域的任务,而无需任何特殊 prompt。但是它有些问题上又会犯离谱的小错误,例如在一些开放问题下会胡编乱造,让人怀疑它缺乏真正的“理解”。
为了尝试回答“GPT-4 是否达到真的智能”,作者们根据 94 年认知心理学上的定义设计了一系列测试,来评估 GPT-4 的水平。为了避免测试集出现在先前收集的训练集中,作者们设计了很多天马行空的问题(非常好奇他们出题时的精神状态)。一些有意思的题目和结果包括:
- 用莎士比亚戏剧的文体,证明有无限多的素数
- 模仿甘地的口吻,写一封信支持电子来选举美国总统(是的就是那个粒子)
- 解答 2022 IMO 中一道数学证明题(表现出非常缜密的“逻辑”)
- 参加 LeetCode 上的亚马逊公司模拟面试(满分通过)
- 执行自然语言伪代码并给出结果,很成功(仔细想,如果能够执行伪代码,那不就是真正理解了这门语言吗)
- 根据一段对话材料来理解别人、理解自己、揣测心态,尝试进行劝架、欺骗(人类的数据竟然也包含了这一类技能)
- 扮演一位老师,评价上述问题中自己和 ChatGPT 的回答表现
可能的研究方向
GPT-4 也有一些回答得很糟糕的问题,例如数学计算、宏观规划。作者们将其归因于 next-word-prediction 这个模式的固有缺陷:依赖一个局部且贪婪的过程来生成下一个单词,而不需要对任务或输出进行任何全局或深入的理解,导致它缺乏规划、回溯能力和推理能力。因此该模型擅长生成流畅连贯的文本,但在解决复杂或者创造性问题方面就受到限制:有些修修改改的问题需要回溯,但这个模式限制其必须要进行超长期规划;有些复杂计算需要“草稿纸”或者说 working memory,如果要求它快速给答案经常会出错(经典地在 prompt 里加上“一步一步来”就能提高正确率)。
其他一些缺陷和可能的方向还包括:回答置信度的标定;特定领域训练数据的缺失;容量非常受限,没办法个性化(只能作为 meta-prompt);持续学习、透明/可解释性/一致性。
对 AGI 的定义
自己读的过程中,一方面觉得它牛得很,真的能完成日常任务;另一方面也像大家一样质疑整套系统仍然是一个大黑盒,这篇文章只能算一份详细的性能评估报告(Empirical Study),很多地方也有点故弄玄虚的味道(可能是为了 PR)。
作者也明确说,GPT-4 展现的很多新能力的来源和机制目前都很难识别,这篇文章的主要目的就是分享它的能力和局限性:GPT-4 虽然在许多任务上已经达到或超过人类水平,但总体而言其智能模式明显不像人类,它展现出的能力让大家开始思考如何定义智能。这也是这篇文章给我感到的最大不同点——花了大量的篇幅来说明如何定义 AGI,如何找到独立、全面的测试集来做 benchmark。
不过这样的测试给我一种感觉,全文只是对整个数据集中的人类知识库在做拆解和分析,毕竟 GPT-4 本质上没有产生新内容。这也是 LLM 仍未实现的一个目标:产生新的知识,比如证明新的数学定理、作出新的物理发现。
另一个收获就是,在这篇文章之前,大家会问:“GPT-4 是否真正理解了所有这些概念?”而看完这些种类繁多的测试之后,我发现它好像已经达到了某种意义上的工具的定义。现在,我关心的问题变成了 “真正的智能比 GPT-4 还强在哪里,或者说我们还要求 GPT-N 做什么?”
更新在听播客 “人类本质是不精确的复读机:与李如一和重轻闲聊 ChatGPT” 后
记录一些有趣的观点:
语言的基础是科技文化等等,因此在不同发展时期、社会环境下的语言都有其特殊含义。「所有的词不达意都是在达某种意」。语言在承载意义之外的意义,而 LLM 只是在重组一些事实描述。
给 LLM 的语料决定了它们的“智力”上限,再多训练也只是在过拟合,在“努力生成流畅的句子”。
损失函数没有定义如何给出 opinion,它们也就注定了不会有主动性。而算法缺少的这种所谓 preference 和 bias,可能是很重要的?
少数派在新技术前的权力与权利,这一点在机器学习领域上表现更明显。身份政治无处不在,对 AI 是一种利好吗?
经常说有了新技术之后,人就可以被解放出来,做真正重要的事情。但是从历史上看,结局好像并非如此,最后只是把人又一次进行三六九等划分。
面对大语言模型,似乎我们有点太「语言中心主义」了,其实还有更多非语言的部分,至少目前还没有暴露给 AI。或者说还有非常大量的知识不在互联网上,还没有数字化。
人类的本质是复读机,是不精确的复读机,而不精确的这一部分,便是艺术文化本身。