独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查

学术 2024-11-28 17:02 北京

作者：Anna Rogers
翻译：赵茹萱
校对：夏舒淇
本文约5000字，建议阅读10分钟
本文介绍了大型语言模型的涌现属性。

人们常说大语言模型具有 “涌现属性”。但这究竟是什么意思，我们又有什么证据呢？

关于大型语言模型（LLMs），我们在ICML’24 position paper中讨论过的一个反复被提及的说法是，它们具有 “涌现属性”。遗憾的是，在大多数情况下，发言者/作者并没有阐明他们所说的 “涌现”是什么意思。但在这个问题上的误解会对研究议程和公共政策产生重大影响。

根据我对学术论文的总结，NLP 研究人员至少在四种场景上使用了这个术语：

1. 模型在没有经过明确训练的情况下表现出的特性。

例如Bommasani et al. (2021, p. 5) 将GPT-3 模型的激发性能(Brown et al., 2020)称为 “一种新出现的特性，它既没有经过专门训练，也没有预期会出现'”。

https://arxiv.org/abs/2108.07258

https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html

2.（与定义1相对）：模型从训练数据中学习的属性。例如，Deshpande等人（2023年，第8页）讨论涌现作为“预训练优势的证据”。

3. 一种属性“在小模型中不存在，但在大模型中存在”(Wei et al., 2022, p. 2)。

https://openreview.net/pdf?id=yzkSU5zdwD

4. 定义 3 的一个版本是，使涌现属性 “引人入胜 ”的是 “它们的显著性，似乎是瞬间从不曾出现到出现的过渡，以及它们的不可预测性，出现在似乎无法预见的模型尺度上” (Schaeffer, Miranda, & Koyejo, 2023, p. 1)。

https://proceedings.neurips.cc/paper_files/paper/2023/file/adc98a266f45005c403b8311ca7e8bd7-Paper-Conference.pdf

对于一个专业术语来说，这种模糊性是令人遗憾的。如果很多人都在重复“大规模语言模型具有涌现特性 ”这一说法，却不澄清自己的意思，读者可能会据此推断出他们自己的定义。

我写这篇文章之前，曾在世界各地的NLP研究小组 - 阿默斯特和乔治城（美国）、剑桥、加的夫和伦敦（英国）、哥本哈根（丹麦）、哥德堡（瑞典）、米兰（意大利）、Genbench研讨会（EMNLP'23 @新加坡）- 发表过多次相关演讲（感谢所有听众！）。这让我有机会向许多 NLP 研究人员了解他们对涌现的看法。根据220名NLP研究人员和博士生的回答，到目前为止，最受欢迎的定义是（1），第二受欢迎的定义是（4）。

定义(1)所表达的观点也经常在公开讨论中被引用。例如，有人声称谷歌的 PaLM 模型 “知道”一种没有被训练过的语言（这几乎肯定是错误的）。同样的观点还引发了美国参议员和梅兰妮-米切尔（著名人工智能研究员，圣达菲研究所教授）之间的如下公开交流：

https://www.buzzfeednews.com/article/pranavdixit/google-60-minutes-ai-claims-challenged

克里斯莫菲：“ChatGPT 自学了高级化学。这不是模型内置的功能。没有人编程让它学习复杂的化学。它决定自学，然后把知识提供给任何有需要的人。”

梅兰妮-米切尔：“参议员，作为一名人工智能研究员，我认为你对 ChatGPT 的描述存在严重的信息错误。每一句话都是错误的。我希望你能更多地了解这个系统的实际工作原理、训练方法和局限性。”

这次交流表明，根据定义（1）提出的 LLM “新兴属性 ”的观点在研究领域之外也有影响。它助长了人们对超级AGI即将接管一切的焦虑，助长了暂停研究的呼声。它可能会把政策制定者推向错误的方向，比如禁止开源研究--这将进一步把资源整合到少数几个大型科技实验室手中，确保它们不会有太多竞争。这还会给人造成一种印象，认为大语言模型是独立于其开发者和部署者作出的决定的实体--这对谁该为这些模式可能带来的危害负责产生了巨大影响。在科研界和社会面临如此高的风险的情况下，我们不应该至少确保科学的严谨性吗？

https://x.com/BasedNorthmathr/status/1797142896069488857

https://futureoflife.org/open-letter/pause-giant-ai-experiments/

这些 “涌现 ”概念对科学理解大语言模型有多大帮助？

很多上述版本中所述的大语言模型中的“涌现”概念仍然值得商榷：相对于其他术语和已经在使用的已知原理，这些术语和原理对科学讨论究竟有多大的推动作用？我想强调的是，这一讨论与“大语言模型是否有用或有价值”这一问题完全无关。无数的模型在没有解释“涌现”的情况下已经在实践中发挥作用。

让我们从定义2 开始：模型从训练数据中学到的东西。既然这正是机器学习模型应该做的事情，那么这个版本的 “涌现 ”是否会给 “学习 ”增添很多东西呢？

对于定义(3)（只有大型模型才会做的事情），根据机器学习的基本原理，大模型的更好表现是意料之中的：大型模型有更大的能力学习其训练数据中的模式。因此，这一版本的 “涌现 ”也没有增加多少内容。除非我们期望较大的模型（而不是较小的模型）能做一些它们没有训练过的事情--但这一定义取决于定义（1）。

对于定义4，性能的急剧变化现象最终被证明是由非连续的评估指标（例如分类任务中的多项选择问答）导致的，而非LLM本身的特性（Schaeffer, Miranda, & Koyejo, 2023）。此外，J. Wei本人承认，当前关于急剧变化的说法是基于相对较少数量模型（1B, 7B, 13B, 70B, 150B等）的结果，如果我们有更多中间模型的结果，性能的增长很可能是平滑的（Wei, 2023）。

定义4中的不可预测性部分被J. Wei（2023）重申为：“如果某些问题的性能可以从小1000倍规模模型的性能轻松推断，而其他问题的性能即使从小2倍的模型也无法推断，那么‘涌现’现象仍然有趣。”

然而，所提到的1,000倍较少计算量的可预测性来源于GPT-4报告（OpenAI, 2023），开发人员提前知道了目标评估，并专门为此进行了优化。考虑到这一点，从理论上来说，可预测的扩展并不令人意外（尽管从工程角度看仍然令人印象深刻）。这与在（Wei等人，2022年）的非计划BIG-Bench评估中的2倍较少计算量的不可预测性形成对比。这种不可预测性是预料之中的，仅仅是由于（a）训练数据中存在与测试数据相似的数据，以及（b）足够的模型容量学习某些特定模式之间的未知交互。

因此，我们只剩下定义(1)：突现属性是模型没有经过明确训练的属性。这可以有两种解释：

5.如果模型没有接触过该属性的训练数据，那么这个属性是涌现的。

6.即使模型接触过相关的训练数据，只要模型开发者对其不了解，这个属性也是涌现的。

根据定义6，研究问题实际上变成了“网上存在什么数据？”（或生成式AI公司专有的训练数据集中有什么）。例如，ChatGPT可以生成看起来合理的国际象棋走法（但经常是非法的）。如果我们把ChatGPT视为语言模型，这似乎令人惊讶，但如果我们知道它是基于一个网络语料库训练的，那就不足为奇了，因为这样的语料库可能不仅包含自然语言文本，还包括国际象棋记录、ASCII艺术、MIDI音乐、编程代码等材料。实际上，“语言模型”这个术语并不准确——它们更应该被称为“语料库模型”（Veres, 2022）。

根据定义5，我们只有证明模型在训练数据中没有接触到可以作为模型输出基础的证据，才能证明某些属性是突显的。而这不大可能是因为在连续表征的潜在空间中进行了幸运采样。如果我们可以随心所欲地生成样本并从中挑选，那么即使是随机初始化的模型，我们最终也会得到一些流畅的文本--但根据定义（5），这不应该算作 “突现属性”。

对于像ChatGPT 这样训练数据不公开的商业模型来说，这样的证明是不可能的。但即使对于 “开放的 ”LLM，这也只是一个假设（如果不是一厢情愿的话），因为到目前为止，我们还缺乏详细的研究（甚至是方法论）来考虑特定模型输出的训练文本数据中证据的数量和种类之间的确切关系。就定义 5 而言，突现属性相当于炼金术的机器学习--而假定这一点的门槛应该相当高，尤其是在有相反证据的情况下。

反驳大语言模型（LLMs）“涌现属性”的证据

以下是一些实证结果，使得大语言模型被认为具有“涌现属性”（定义5）变得值得怀疑（即模型未曾接触过该属性的训练数据）：

1. 提示敏感性现象（Lu, Bartolo, Moore, Riedel, & Stenetorp, 2022；Zhao, Wallace, Feng, Klein, & Singh, 2021）：大语言模型对应该具有相同语义的提示做出不同的反应。如果我们认为模型具有回答问题的涌现属性，那么以稍有不同的方式提出问题，尤其是少量示例的顺序不同，不应该产生影响。最可能的解释是，模型对那些在某种程度上与其训练数据更相似的提示反应更好。

2. Liang等人评估了30个大语言模型，得出结论“版权材料的复述风险显然与模型准确性相关”（2022, p. 12）。这表明那些“记住”更多训练数据的模型表现更好。

3. McCoy, Yao, Friedman, Hardy, & Griffiths（2023）表明大语言模型的性能依赖于输出词序列在网络文本中的概率。

4. Lu, Bigoulaeva, Sachdeva, Madabushi, & Gurevych（2024）指出18个大语言模型的“涌现”能力主要归因于上下文学习。指令调优可以促进上下文学习，但似乎并没有独立的效果。

5. 对于上下文学习本身（首次在GPT-3中展现（Brown等人, 2020），并被Bommasani等人（2021, p. 5）作为“涌现”的例子），Chen, Santoro等人（2022）的结果表明，这仅发生在使用与将要测试的上下文学习序列结构类似的序列进行训练的Transformer中。

6. Liu等人（2023）报告说，ChatGPT和GPT-4在较旧的基准测试中表现优于新发布的基准测试，这表明许多评估结果可能由于数据污染而被夸大。OpenAI本身在GPT-3的论文中（Brown等人, 2020）讨论了这个问题。由于我们对最新模型的训练数据一无所知，外部评估结果可能并不具有意义，而公司内部的报告因其需要模型作为商业服务出售而存在明显的利益冲突。

7.“AGI火花”研究是一项旨在避免至少数据污染问题的方法学的著名尝试（Bubeck等人, 2023）。使用新构建的测试案例，并对比公共网络数据及其变体，作者得出GPT-4具有“非常先进的心智理论”的结论，但至少有两项研究得出了相反的结论（Sap, Le Bras, Fried, & Choi, 2022；Shapira等人, 2024）。该方法失败的最可能原因是，尽管我们可以检查网络上的直接匹配，但仍可能错过一些高度相似的情况（例如，该论文中著名的使用tikz绘制独角兽的例子可能基于stackoverflow社区用tikz绘制其他动物）。此外，像GPT-4这样的商业大语言模型也可能在非公开数据上进行训练。以OpenAI为例，在改变条款之前，数百名研究人员和其他GPT-3用户通过API提交了大量数据。

这并不是说大语言模型完全不可能在其训练分布之外表现良好。发生某种程度的泛化时，最佳情况是这种泛化是由于观察到的训练数据中的单独模式插值，但这些模式并未同时出现。然而，我们在何时可以认为结果是质的不同，哪种与训练数据的相似性重要，以及我们如何识别这些问题——这些仍然是未解决的研究问题。

NLP研究人员实际上并不相信大语言模型（LLMs）的“涌现属性”

正如我所提到的，我曾在几个自然语言处理研究小组中就此进行演讲。在这些演讲的最开始，在我展开上述讨论之前，我向听众提出了一些问题，包括他们是否认为大语言模型具有涌现属性（根据他们偏好的定义，如上所述，主要为定义1）。我还询问了他们对该领域共识的看法——他们认为大多数NLP研究人员对这一点的看法是什么？对于第一个问题，我从259名研究人员和博士生中获得了答案，而对于第二个问题，则有360人给出了回答（备注：需要给大家更多时间来连接投票）。

结果非常引人注目：尽管大多数受访者对大语言模型的涌现属性持怀疑态度或不确定（只有39%的人同意这一说法），但70%的人认为大多数其他研究人员确实相信这一点。

这与其他几种错误的社会学信念一致：例如，许多NLP研究人员并不认为NLP排行榜特别有意义，或认为扩展规模会解决所有问题，但他们认为其他NLP研究人员对此有这样的看法（Michael等人，2023）。在我的样本中，只有少数研究人员认为大语言模型具有涌现属性的观点，但被错误地认为是大多数人。即使对于那少数人，他们的信念也并不坚定。在我的四次演讲中，在展示上述讨论后，我还询问了听众现在的看法。在70个回应中，83%最初同意“大语言模型具有涌现属性”这一说法的受访者，转而表示不同意（13.9%）或不确定（69.4%）。

事后看来，“同意/不同意/不确定”并不是这个投票的最佳选择。作为科学家，我们几乎不可能做到100%确定：正如Yann LeCun在Munk辩论中所说的那样，我们甚至无法证明现在没有卫星在木星周围运行。我们的工作不是陷入这些分散注意力的困境，而是制定并检验假设，以推动我们对所研究现象的理解。对于大语言模型中的“涌现”，我认为我们仍处于“制定”阶段——因为即使经过上述澄清“涌现”的工作，我们仍然没有明确的研究问题，无法清楚地获得实证证据。

关键的未解决问题是，什么样的现有模式的插值才算得上是足够新的东西，以符合自然语言数据领域中的“涌现现象”。这个问题特别困难，因为它混合了不同种类的信息（语言、社会、事实、常识），而这些信息可能以不同的方式呈现（在上下文中明确、隐含或需要对长上下文进行推理）。关于在回答问题任务中涉及的不同技能，请参见Rogers, Gardner, & Augenstein（2023，pp. sec. 8.2）的讨论。

原文标题：

LLMs areoftensaidtohave ‘emergentproperties’. Butwhatdoweevenmeanbythat, andwhatevidencedowehave?

原文链接：

https://towardsdatascience.com/how-to-choose-the-architecture-for-your-genai-application-6053e862c457

编辑：王菁

校对：丁玺茗

译者简介

赵茹萱，东南大学法律硕士，现就职于北京市京都律师事务所，喜欢浏览“数据圈儿”，分享数据资讯的法律人。愿与我派一起，继续探索未知，保持热爱。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

点击“阅读原文”拥抱组织

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

深入理解多重共线性：基本原理、影响、检验与修正策略

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

【阿姆斯特丹博士论文】优化、博弈与泛化界

独家｜ChatGPT搜索如何为AI代理铺路

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

报名 | 揭秘AI科研神器，解锁跨学科创新密码！

独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查

清华软件论坛 | 清华大学杰出访问教授樊文飞院士分享“AI = 机器学习 + 逻辑推理”

【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

【阿姆斯特丹博士论文】科学模拟的机器学习：推理与生成模型

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

TSMamba：基于Mamba架构的高效时间序列预测基础模型

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

大数据系统软件国家工程研究中心共同主办首届北京数字人才发展大会

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

【牛津大学博士论文】通过贝叶斯实验设计实现自动化数据采集

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

数据派志愿者招募 | 寻找最志同道合的你！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

报名 | 全球证书项目Innovation and Entrepreneurship for the Al Economy

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

从哈佛哲学系到蛋白质设计大师，David Baker：AlphaFold令我深刻认识到深度学习的力量

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

IoTDB 航空航天解决方案：从制造到试飞，助力国之重器翱翔长空

深度学习工程实践：PyTorch Lightning与Ignite框架的技术特性对比分析

【CMU博士论文】使用数据不确定解释的可信学习

通知 | 清华大学大数据能力提升项目“RONG”奖学金开始申请啦！

一文解读：时序基础模型的缩放定律

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

原创 | 展望大语言模型在AGI时代的发展前景

10种数据预处理中的数据泄露模式解析:识别与避免策略

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

清华软件论坛 | 樊文飞：AI = 逻辑推理 + 机器学习

勾股定理还能这样证明？高中生一连发现10种证明方法，陶哲轩点赞

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

【CELL】用AI智能体推动生物医学发现

科普之旅｜大语言模型与量子计算的融合

Github上的十大RAG(信息检索增强生成)框架

【NeurIPS2024】将连续潜在变量模型扩展为概率积分电路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

独家 ｜在大型语言模型中对于 “涌现属性 ”的合理性检查

这些 “涌现 ”概念对科学理解大语言模型有多大帮助？

反驳大语言模型（LLMs）“涌现属性”的证据

独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查