ACL2024 | 破案了！大型语言模型中的涌现能力只是上下文学习吗?.

文摘 2024-09-10 21:01 广东

论文标题：Are Emergent Abilities in Large Language Models just In-Context Learning?
论文翻译：大型语言模型中的涌现能力只是上下文学习吗?.
论文链接：https://arxiv.org/abs/2309.01809
作者：Sheng Lu, Irina Bigoulaeva, Rachneet Sachdeva, Harish Tayyar Madabushi, Iryna Gurevych]

摘要

大型语言模型（LLMs）由数十亿个参数组成，并在大规模的网络语料库上进行了预训练。它们被认为能够获取某些未经专门训练的能力，这些能力被称为“涌现能力”。涌现能力已经成为关于语言模型潜力和风险讨论的推动力之一。评估涌现能力的一个关键挑战在于，这些能力往往与模型通过其他提示技术（如上下文学习）产生的能力相混淆。上下文学习是指模型基于少量示例完成任务的能力。我们提出了一种新的理论，解释了涌现能力，同时考虑了潜在的混淆因素，并通过超过1000次实验严格验证了该理论。我们的研究结果表明，所谓的涌现能力实际上并非真正涌现，而是上下文学习、模型记忆和语言知识的结合结果。我们的研究为解释语言模型的性能奠定了基础，提供了其高效使用的模板，并澄清了它们在某些情况下表现出色而在其他情况下表现不佳的悖论。我们证明了它们的能力不应被过高估计。

论文目的

论文旨在探讨所谓的“涌现能力”是否实际上只是由于上下文学习（In-Context Learning）而产生的。论文通过超过1000次实验，提出并验证了一个新的理论，认为这些被认为是“涌现”的能力，其实是由模型的上下文学习能力、记忆能力和语言知识的结合所产生的，而不是语言模型自发获得的真正新能力。研究的目的是澄清语言模型在某些任务中表现出色而在其他任务中却表现不佳的原因，并为这些模型的高效使用提供了框架，避免过高估计其能力。

实验

Figure 1展示了在 零样本设置（zero-shot setting）下，非指令微调的 GPT 模型的表现。灰色背景表示先前未被识别为涌现任务的任务。该图表的结果表明，即使在没有上下文例子的情况下，模型在这些任务中的表现也没有明显的涌现能力。

image-20240910205001278

零样本设置 是指模型在没有提供任何上下文例子或提示的情况下直接进行任务。
在这个设置下，只有两个任务展现出了超过随机基线（random baseline）的表现，分别是“无意义单词语法”（NS words grammar）和“印度知识”（Hindu knowledge），而这两个任务更多依赖于形式化语言能力或信息回忆，而不是推理能力。
这表明在没有上下文学习（ICL）的情况下，大型语言模型（特别是 GPT-3）的功能性语言能力并没有涌现出来。

Figure 2 比较了两个模型在不同任务上的表现：一个是 非指令微调的 GPT-J 模型（使用上下文学习），另一个是 指令微调的 Flan-T5 大模型（不使用上下文学习）。结果表明，这两个模型在许多任务上都表现出了相似的能力。

image-20240910205223339

这种相似性表明，指令微调并没有赋予模型新的涌现能力，而更可能是通过指令微调有效地利用了上下文学习的能力。
这为论文的核心观点提供了支持，即指令微调模型的优异表现可以通过隐含的上下文学习来解释，而不是依赖于真正的涌现能力。

总的来说，Figure 1 强调了在不使用上下文学习时，模型缺乏涌现能力，而 Figure 2 证明了指令微调与上下文学习之间的强关联

结论

涌现能力源于上下文学习：通过实验验证，所谓的大型语言模型（LLMs）的“涌现能力”其实是上下文学习（ICL）的结果，而并非真正的新能力。这推翻了此前认为模型具备自发获取新能力的观点。
指令执行与问题解决能力的区分：模型能够遵循指令并不等同于具备解决问题的内在推理能力。简单地按照指令生成输出可能导致“幻觉”现象，即生成流畅但内容不正确的答案。这强调了仅仅执行指令并不能反映模型的真实推理能力。
消除安全担忧：模型并不具备潜在的危险能力，如推理或计划能力，缓解了之前关于这些模型安全性的过度担忧。研究为更安全和高效地使用大型语言模型提供了理论框架，并揭示了它们的能力边界。

总结来说，论文帮助澄清了大型语言模型的能力和局限性，并为未来的人工智能安全研究提供了新的视角。

欢迎扫码关注：

http://mp.weixin.qq.com/s?__biz=MzkxMzUxNzEzMQ==&mid=2247489303&idx=1&sn=8378f5f7b5fb820eb2aea13411f853bf

机器学习实战

多名大厂算法工程师共同运营，主要专注机器学习算法、深度学习算法、计算机视觉等领域技术干货分享，一天进步一点点

最新文章

上海交大新聘AI博导，27岁！

SCI机器学习一区TOP，再次刷新顶刊巅峰！

刷脸背后，卷积神经网络的数学原理原来是这样的

一位中国博士把整个CNN都给可视化了，可交互有细节，每次卷积ReLU池化都清清楚楚

教高中生发顶会，看完还不懂来找我

PyTorch下的可视化工具（网络结构/训练过程可视化）

RTX 3090的深度学习环境配置指南：Pytorch、TensorFlow、Keras

有位大佬逐模块解析transformer结构

图解机器学习：贝叶斯算法

使用 YOLO 加速实时应用程序中的对象检测 !

算法岗平时需要自己写cuda吗？

13张动图快速理解马尔科夫链、PCA、贝叶斯！

使用 LSTM 进行多变量时间序列预测的保姆级教程

搞懂Transformer结构，看这篇PyTorch实现就够了

时间序列问题特征提取技巧（含Python代码）

【深度学习】既然英伟达A100/H100 太贵，为什么不用 4090？

李飞飞：我不知道什么是AGI

图解Numpy，这篇文章是真的强！

PyCharm vs VSCode，是时候改变你的 IDE 了！

苹果为什么不敢对 12306 买票抽成 30% ?

微信官方回应：为什么不做已读功能

中国高校面积Top10

六年、六届学生接力，共铸上交大图像合成工具箱libcom

超全！李航《统计学习方法》读书笔记

2026年量产！没有方向盘和踏板！特斯拉无人驾驶出租车发布

何恺明新作出炉！中稿NeurIPS 2024！HPT：异构预训练Transformer

复现Resnet论文那些事

ONNX：从入门到精通

硬核解读Stable Diffusion（完整版）

PyGWalker：最好用的数据分析Python库

7大类卷积神经网络(CNN)创新综述

ACL2024 | 破案了！大型语言模型中的涌现能力只是上下文学习吗?.

漂亮，LSTM模型结构的可视化

XGBoost 比深度学习还强？

Sapiens——强大的通用人类视觉模型

Plotly Express：一种简洁且强大的可视化神器

TensorSensor：可视化向量运算库

Seaborn可视化库：从入门到精通

从零开始学绘图！手把手教新手使用Matplotlib创建个性化图表

卷积神经网络数学原理解析

如何轻松掌握马尔科夫采样算法

虎扑高校排名公布！这JR们打分着实意想不到!

AI大语言模型不再遥不可及：本地化部署、智能体构建技术让每个人都能拥有

50个最佳机器学习公共数据集

如何向10岁小孩解释LDA（线性判别分析）算法

想学SVD（奇异值分解）算法？看这篇就够了

如何通俗理解PCA（主成分分析）算法的数学原理和代码实现

如何向10岁小朋友解释频率学派和贝叶斯学派

如何向10岁小孩解释PCA（主成分分析）算法

全网独一份！AI大模型学习训练资源...（限时免费领）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉