打脸“AI灭绝伦”！研究反驳：大模型涌现能力不会威胁人类生存

科技 2024-08-19 18:00 山西

大数据文摘受权转载自学术头条

大语言模型（LLM）因“涌现能力”（emergent abilities）而拥有了超出人类预期的技能，但也因此让人类十分忌惮：操纵、欺骗人类，自主实施网络攻击，自动化生物研究......

然而，也有专家认为，这种过度的担忧会损害开源和创新，不利于人工智能（AI）行业的健康发展。当前，有关“AI 灭绝伦”的争论愈演愈烈。

那么，“涌现能力”真的是导致 AI 大模型威胁人类生存的罪魁祸首吗？一项最新研究否定了这一观点。

来自达姆施塔特工业大学和巴斯大学的研究团队发现，GPT 等 LLM 尚无法独立地学习或获得新技能，这意味着它们不会对人类构成生存威胁。

他们表示，“涌现能力” 背后的真相或许比科幻电影更富有戏剧性，许多所谓的“涌现能力”，其实都是 AI 大模型在面对不熟悉的任务时，依赖于已有的数据和经验做出的“即兴表演”。

相关研究论文以 “Are Emergent Abilities in Large Language Models just In-Context Learning?” 为题，已发表在 AI 顶会国际计算语言学年会（ACL）上。

他们通过一系列实验验证了 AI 大模型在不同上下文条件下的表现，结果发现：在零样本（zero-shot）的情况下，许多大模型根本无法展现所谓的“涌现能力”，反而表现得相当一般。

他们表示，这一发现有助于理解 LLM 的实际能力和局限性，并为未来的模型优化提供新的方向。

智能涌现：只是“即兴表演”？

AI 大模型的“涌现能力”来自哪里？它是否真如听起来那样神秘，甚至令人担忧？

为了破解这一谜题，研究团队选择了 GPT、T5、Falcon 和 LLaMA 系列模型作为研究对象，通过实验分析了非指令微调模型（如 GPT）和指令微调模型（如 Flan-T5-large）在 22 个任务（17 个已知的涌现任务和 7 个基线任务）和不同条件下的表现。

图｜模型列表。

为了全面评估模型能力，他们将 Exact Match Accuracy、BERTScore Accuracy 和 String Edit Distance 作为评估指标。同时，为了提高实验的准确性，他们还进行了偏见控制，通过调整提示和输出格式，确保非指令微调模型的公平性，并通过手动评估验证模型输出的准确性。

在实验中，研究人员采用 zero-shot 和少样本（few-shot）两种设置，重点分析了 GPT 的表现能力。

图｜非指令微调 GPT 模型在零样本下的表现。

令人惊讶的是，尽管 GPT 在之前的研究中被认为具有涌现能力，但在 zero-shot 的情况下，这种能力表现得非常有限。

具体而言，只有两个任务在不依赖上下文学习（ICL）的情况下展示了涌现能力，这两个任务主要依赖形式语言能力或信息检索，而非复杂的推理能力。由此可以得出，在没有上下文学习的条件下，GPT 模型的涌现能力受到了极大的限制。

然而，涌现能力的来源仅仅如此吗？研究团队又将目光转向了指令微调模型，提出了一个大胆的假设：指令微调并非简单的任务适应，而是通过隐式上下文学习，激发了模型的潜在能力。

通过对比 GPT-J（非指令微调）与 Flan-T5-large（指令微调）的任务解决能力，他们发现，尽管两者在参数规模、模型架构和预训练数据上存在显著差异，但在某些任务上的表现却出奇地一致。

图｜两个模型的表现在高于随机基线部分有很大的重叠，这表明指令微调可以有效地获取上下文中的能力，而非导致功能性语言能力的涌现。

这一现象表明，指令微调模型可能并不是在展示一种全新的推理能力，而是通过隐式上下文学习，巧妙地利用了已有的上下文学习能力。

进一步的实验表明，无论是模型规模的增加，还是训练数据的丰富，指令微调模型在 zero-shot 的情况下，仍然能够与非指令微调模型表现出相似的任务解决能力。这一发现再次强调了指令微调与隐性上下文学习之间的紧密联系。

AI 威胁人类生存：真实还是夸大？

尽管 LLM 在任务表现上展现出超凡的能力，但研究结果表明，这些能力并不意味着 AI 对人类生存构成实质性的威胁。

首先，LLM 的涌现能力主要来源于上下文学习和指令微调，这些技术在模型的设计和训练中是可以被预测和控制的，并未表现出完全自主发展的趋势，也没有产生独立的意图或动机。

例如，在社交智力测试（Social IQA）中，模型能够正确回答涉及情感和社会情境的问题，例如：“卡森醒来去上学时很兴奋。他为什么要这样做？”

在这一问题中，模型通过上下文学习和指令微调，能够超越随机基线（random baseline），选择出合理的答案。这说明模型并非在自发产生某种“智能”，而是在具体输入和设计条件下展现出的一种高级模式识别能力。

其次，研究发现随着 LLM 规模的扩大，这些能力表现得更加显著，但并未脱离设计者的控制。通过对模型的微调，可以引导 LLM 更好地理解和执行复杂任务，而这种能力的增强并不意味着模型会产生自主意识，还不足以对人类产生威胁。

在实验中，LLM在特定任务上的表现大大优于随机基线，尤其是在需要推理和判断的任务中。然而，这种表现依然依赖于大量训练数据和精心设计的输入提示，而非模型自发的智能觉醒。

这一结果进一步证实 LLM 的涌现能力是在可控范围内发展的，虽然这一假设仍需进一步的实验证实，但为研究理解大模型的涌现能力提供了一个全新的视角。

研究指出，虽然未来人工智能可能会在功能性语言能力上进一步发展，但其潜在危险性依然是可控的。现有证据还不能支持“AI灭绝伦”的担忧，相反，AI 技术的发展正在逐步朝着更加安全和可控的方向前进。

不足与展望

尽管这项研究为理解 LLM 的涌现能力提供了重要的见解，但研究人员也指出了该研究的局限性。

当前的实验主要集中在特定的任务和场景下，而 LLM 在更加复杂和多样化的情境中的表现尚需进一步研究。

研究人员表示，模型的训练数据和规模仍然是影响涌现能力的关键因素，未来的研究还需进一步探索如何优化这些因素，从而提高模型的安全性和可控性。

他们计划进一步研究 LLM 在更加广泛的语言和任务环境中的表现，特别是如何通过改进上下文学习和指令微调技术来增强模型能力，且确保安全性。

此外，他们还将探讨如何在不增加模型规模的情况下，通过优化训练方法和数据选择，实现涌现能力的最大化。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651735003&idx=1&sn=4e832c8e30ae45fdf7535ca5344c8764

大数据文摘

普及数据思维，传播数据文化

最新文章

贝索斯领投、OpenAI连续跟投，这家机器人公司再融4亿美金

你愿意和AI恋人共度一生吗？

比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

OpenAI CTO深夜离职！Altman再发长文：感谢她做的一切，我将专注于技术和产品

热门视频：人形机器人一拳破次元！远程暴打沙袋和乒乓球

Sam Altman罕见发长文：ASI终将至，准备好迎接“智能时代”吧！深度学习是有效路径

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉