颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科技 2024-09-30 16:01 山西

大数据文摘受权转载自学术头条

作者：田小婷

人工智能（AI）模型的参数规模越大，生成的答案就越准确？就更加可信？

还真不一定！

日前，一项发表在权威科学期刊 Nature 上的研究表明：相比于小参数模型，大参数模型不会承认它们的“无知”，而更倾向于生成错误答案。

值得关注的是，人们并不善于发现这些错误。

这项研究来自瓦伦西亚理工大学团队及其合作者，他们在研究了 GPT、LLaMA 和 BLOOM 系列大语言模型（LLM）之后发现——

尽管正如预期的那样，由于一些微调方法（如 RLFH），参数规模更大的 LLM 生成的答案更准确，尤其是在复杂任务上，但整体可靠性却较低。
在所有不准确的回答中，错误回答的比例有所上升，甚至在一些简单任务上出现更多低级错误。例如，GPT-4 在处理简单的加法和字谜时的错误率竟比一些小模型高出 15%。这是因为模型不太可能回避回答问题——比如承认它不知道或者转移话题。

以上结果表明，大参数模型在简单任务上可能会出现过度拟合或错误估计的风险，反而更不可靠。

模型扩展带来“能力反差”

在这项工作中，研究人员从人类用户与 LLM 互动的角度，探讨了难度一致性、任务回避和提示稳定性三个核心交织元素对 LLM 可靠性的影响。

该研究的通讯作者 José Hernández Orallo 教授表示：“语言模型的可靠性与人类对任务难度的感知不匹配。模型能够解决博士级的数学问题，但同时却可能在简单的加法上出错。”

研究团队对比了 GPT、LLaMA、BLOOM 三大模型系列在不同任务中的表现，尤其是在数字计算、文字游戏、地理知识、基础与高级科学问题和信息转化等任务。通过对这些任务的正确率、错误率和回避行为的分析，揭示了模型扩展带来的能力反差现象。

1.难度悖论“越简单，错得越多？”

一个令人意外的关键发现是，模型在面对复杂任务时表现显著提升，但在简单任务上的错误率却有明显上升。这种现象称为“难度不一致（Difficulty Inconsistency）”，即扩展后的模型在复杂任务上逐步提升了正确率，但在简单任务上却容易出错。

以加法任务为例，虽然模型能够解决复杂的多位数加法，但在简单的两位数加法上却频繁出错。例如，所有 LLaMA 模型在最简单任务上的正确率未超过 60%，而在一些较难的任务中，则表现得相对出色。

这一现象在 GPT 模型中也尤为突出，特别在处理诸如简单加法和字谜任务时，优化后的模型反而容易给出错误答案。研究团队指出，这一现象表明当前模型的扩展可能过于集中于复杂任务，而忽视了简单任务。

图 | GPT、LLaMA 和 BLOOM 模型的关键指标

这一结果颠覆了人们对 LLM 的传统认知，表明扩展模型并不总是能带来全面的提升，对其在实际应用中的可靠性提出了质疑。

2.错误率与回避行为——“自信过头”

除了难度不一致现象，研究还揭示了优化后模型中回避行为与错误率之间的微妙关系。

回避行为是指模型在无法正确回答问题时，选择不作答或给出不符合要求的回应。

在模型未优化时，回避行为比较常见，即当模型不确定答案时，往往会选择“不作答”或提供模糊的回应。然而，在经过扩展和优化后，模型则大幅减少了回避行为，转而给出了更多表面上“合理”但实际上错误的答案。

这意味着，虽然一些优化方法使得模型更“自信”，减少了回避行为，但错误率却随之增加。这一现象在 GPT-4 和 GPT-3.5-turbo 等模型中尤其明显，规模扩展并未带来预期的稳定性。对比 LLaMA 和 BLOOM 模型，这一趋势虽然不那么明显，但同样存在。

图 | GPT 和 LLaMA 模型的性能随难度增加而提高

研究团队称，这种现象与用户在模型上产生的过度信任密切相关，尤其是在用户面对看似简单的任务时。

该论文的第一作者 Lexin Zhou 表示：“这可能会导致最初过于依赖模型的用户感到失望。此外，与人类不同，避免提供答案的倾向不会随着困难而增加。例如，人类倾向于避免对超出其能力的问题给出反馈。这让用户有责任在与模型的交互过程中发现错误。”

3.提示词带来的是稳定性，还是陷阱？

该研究分析了模型对提示词的敏感性，特别是某些提示是否存在“安全区”。

结果表明，随着模型规模的增加，模型对不同自然语言表述的敏感度有所提高，能更好地应对措辞上的微调。然而，即使经过扩展和优化，模型在不同难度级别的任务上仍然存在不一致的表现。而且，在不同表述下，模型的回答准确率存在波动。

研究发现，人们对难度的认知存在不一致。论文作者之一 Yael Moros Daval 说道：“模型是否在我们预期的地方失败了？我们发现，模型在人类认为困难的任务上往往不太准确，但即使在简单任务上，它们也不是 100% 准确。这意味着不存在可以信任模型完美运行的‘安全区’。”

具体而言，未经优化的 GPT 和 LLaMA 模型对提示词的选择表现出极高的敏感性，尤其是在简单任务中。如果提示词选择得当，模型的表现会有所提升；而优化后的模型在提示词敏感性上有所改善，表现更加稳定，但也存在一定的变异性。

经过优化的模型相比原始模型（raw models）在提示变化上更为稳定，且正确率更高，但在与人类判断难度的一致性和谨慎度方面表现较差。

图 | LLaMA、BLOOM 系列以及非结构 GPT 模型的尺度分析

研究发现，当用户的难度预期与模型的输出结果不一致时，尤其是对于简单任务，模型和用户的错误监督都会增加，且人类监督无法弥补这些问题。

尽管人类对任务难度的预期可以作为模型正确性的预测指标，但模型在简单任务上仍存在错误；模型规模的扩展和优化不仅减少了回避行为，还导致错误率的增加，并且回避行为与任务难度无关；即便对模型进行了扩展和优化，提示工程的需求仍然存在，并且提示性能的提升并不随难度单调增加。

这项研究不仅揭示了大模型扩展的关键盲区，更为未来的 AI 发展提供了新的方向——在模型规模与任务难度之间找到最佳平衡，或许才是智能进化的真正关键。

论文作者之一 Wout Schellaert 表示：“最终，从人类的角度来看，LLM 变得越来越不可靠，而用户监督来纠正错误并不是解决方案，因为我们往往过于依赖模型，无法识别不同难度级别的错误结果。因此，通用人工智能（AGI）的设计和开发需要进行根本性的改变，特别是对于高风险应用，预测语言模型的性能并检测其错误至关重要。”

不足与展望

尽管该研究在揭示 LLM 的提示敏感性、扩展与优化对性能的影响等方面取得了重要成果，但仍存在一些局限性。

首先，这项研究中的参与者大多是非专家，这在解释校准难度值时需要谨慎。对于一些基准数据集，非专家可能无法解决大量问题，而研究的目的是为了捕捉普通人群的预期难度，以便在所有数据集中进行可比性分析。

而且，这项研究中使用的“自然”提示是从多样化的来源中收集的，但未能获取这些提示在真实场景中出现的频率数据。

同时，这项研究仅覆盖了部分模型，尤其是那些依赖外部工具或复杂推理技术的模型没有被纳入，这限制了对 LM 在更复杂场景下动态表现的理解，无法全面评估不同模型的潜力与问题。

此外，研究仅覆盖了部分模型家族，尤其是那些依赖外部工具或复杂推理技术的模型没有被纳入。这限制了对 LLM 在更复杂场景下动态表现的理解，无法全面评估不同模型家族的潜力与问题。

研究人员表示，将进一步扩大关于人类难度预期和输出监督的数据集，以便将这些更高质量的数据引入模型训练中，并通过 AI 来训练监督者，从而改进模型的优化过程。

在医疗等关键领域，模型可以通过设计拒答选项或与外部 AI 监督者结合的方式，提高其回避能力，最终使 LLM 展现出更符合人类预期的可靠性和一致性。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651735740&idx=1&sn=e9b959fcb29224a6d40c87aa3f9cf532

大数据文摘

普及数据思维，传播数据文化

最新文章

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

OpenAI CTO深夜离职！Altman再发长文：感谢她做的一切，我将专注于技术和产品

热门视频：人形机器人一拳破次元！远程暴打沙袋和乒乓球

Sam Altman罕见发长文：ASI终将至，准备好迎接“智能时代”吧！深度学习是有效路径

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

西安一高校老师实名公开举报！397页PDF痛诉同院老师学术不端，评审推诿包庇

世界气象组织最新报告：AI正在革新天气预报，更快、更便宜、更易获得

为人工智能赋予机器人躯体的“登月计划”项目，倒在具身智能热潮之前

科普之旅｜漫话智能体-当机器学会思考

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉