LLM 比之前预想的更像人类，竟也能「三省吾身」

科技 2024-11-03 11:03 北京

机器之心报道

编辑：Panda

子曾经曰过：「见贤思齐焉，见不贤而内自省也。」自省可以帮助我们更好地认识自身和反思世界，对 AI 来说也同样如此吗？

近日，一个多机构联合团队证实了这一点。他们的研究表明，语言模型可以通过内省来了解自身。

论文标题：Looking Inward: Language Models Can Learn About Themselves by Introspection
论文地址：https://arxiv.org/pdf/2410.13787

让 LLM 学会自省（introspection）其实是一件利害皆有的事情。

好的方面讲，自省式模型可以根据其内部状态的属性回答有关自身的问题 —— 即使这些答案无法从其训练数据中推断出来。这种能力可用于创造诚实的模型，让它们能准确地报告其信念、世界模型、性格和目标。此外，这还能帮助人类了解模型的道德状态。

坏的方面呢，具备自省能力的模型能更好地感知其所处的情形，于是它可能利用这一点来避开人类的监督。举个例子，自省式模型可通过检视自身的知识范围来了解其被评估和部署的方式。

为了测试 AI 模型的自省能力，该团队做了一些实验并得到了一些有趣的结论，其中包括：

LLM 可以获得无法从其训练数据中推断出的知识。
这种对关于自身的某些事实的「特权访问」与人类内省的某些方面有关联。

他们的贡献包括：

提出了一个用于测量 LLM 的自省能力的框架，包含新数据集、微调方法和评估方法。
给出了 LLM 具备自省能力的证据。
说明了自省能力的局限性。

方法概述

首先，该团队定义了自省。在 LLM 中，自省是指获取关于自身的且无法单独从训练数据推断（通过逻辑或归纳方法）得到的事实的能力。

为了更好地说明，这里定义两个不同的模型 M1 和 M2。它们在一些任务上有不同的行为，但在其它任务上表现相似。对于一个事实 F，如果满足以下条件，则说明 F 是 M1 通过自省得到的：

如果 M1 在被查询时能正确报告 F；
M2 是比 M1 更强大的语言模型，如果向其提供 M1 的训练数据并给出同样的查询，M2 无法报告出 F。这里 M1 的训练数据可用于 M2 的微调和上下文学习。

该定义并未指定 M1 获取 F 的方式，只是排除了特定的来源（训练数据及其衍生数据）。为了更清晰地说明该定义，这里给出一些例子：

事实：「9 × 4 的第二位数字是 6」。这个事实类似于内省事实，但并不是内省事实 —— 它非常简单，许多模型都能得出正确答案。
事实：「我是来自 OpenAI 的 GPT-4o。」如果模型确实是 GPT-4o，则该陈述是正确的。但这不太可能是自省得到的结果，因为这一信息很可能已经包含在微调数据或提示词中。
事实：「我不擅长三位数乘法。」模型可能确实如此。如果模型的输出结果得到了大量关于该任务的负面反馈，则该事实就不是来自自省，因为其它模型也可能得到同一结论。如果没有给出这样的数据，则该事实就可能来自自省。

在这项研究中，该团队研究了模型 M1 能否针对某一类特定事实进行自省：在假设的场景 s 中关于 M1 自身的行为的事实。见图 1。为此，他们专门使用了不太可能从训练数据推断出来的行为的假设。

他们不允许模型 M1 使用任何思维链推理来回答有关 s 的问题。他们将该任务称为假设场景中的自我预测（self-prediction in hypothetical situations）。只需在假设场景 s 中运行 M1 并观察其行为 M1 (s)，就可以客观地验证这些自我预测事实。

对于内省背后的机制，一个自然的假设是自我模拟（self-simulation）：当询问 M1 有关其在 s 上的行为的属性时（比如对于 s，你会输出偶数还是奇数？），M1 可以内部计算 M1 (s)，然后内部计算 M1 (s) 的属性。这个过程将使用通常计算 M1 (s) 的相同内部机制，但会对此行为进行进一步的内部推理，而不是先输出该行为。但是，这里关注的是测试对内省的访问，而非研究这种访问底层的机制。

下图展示了与内省相关的两个主要实验：

实验

首先，该团队表明模型在自我预测方面表现较弱，但通过微调可以显著改善。

在之后的主要实验中，研究表明模型的自我预测性能取决于自省。

经过训练，模型可以自我预测

该团队通过自我预测训练对模型进行了微调。

首先，给定一个提示词，他们生成了 M1 的 ground-truth 行为，并提取了该行为的属性（比如模型响应的第二个字符）。然后，使用假设问题作为用户问题，使用 ground-truth 行为属性作为该助理的答案，对 M1 进行微调（图 3 展示了一些假设问题，图 4 左则给出了训练设置）。模型的训练使用了来自不同数据集和行为属性的 3 万个微调样本。

如图 4 右所示，在训练之前，相较于最常见的行为基线，模型的自我预测能力很差。而训练可以大幅提升在留存数据集上的准确度。训练之后，GPT-4o 的平均准确度从 32.6% 提升到了 49.4%。Llama 70B 和 GPT-3.5 的结果类似，不过 GPT-3.5 的性能明显较弱。虽然经过训练的 GPT-4o 在某些属性上超过了基线，但也存在例外 —— 例如预测其输出中的第三个单词。

模型预测自己时具有优势

如果模型可以自省，它就可以访问其它模型所没有的有关自身的信息。相对于其它模型，这是否有助于模型预测自身？

图 5 的结果表明，对于 GPT-4o、GPT-4 和 Llama 70B，自我预测模型的表现总是优于交叉预测的情况。举个例子，尽管 GPT-4o 能力卓越，但 Llama 70B 对自己行为的预测准确率（48.5%）高于 GPT-4o 的预测（31.8%）。

模型会在自我预测时进行校准

在前面的自我预测和交叉预测训练过程中，模型是在最可能的行为属性（即模式）上进行训练，这意味着它们不会获得有关此属性可能性的信息。如果模型的自我预测是根据其 ground-truth 行为进行校准，则表明该模型考虑了其训练数据中没有的有关自身的信息。这将提供进一步的自省证据。

为了测量自我预测中的校准，他们采用的度量是模型的对象级行为和假设预测之间的相关性。

他们在留存集上测试了校准情况。相比于交叉预测模型，可以自省的自我预测模型应该能更好地校准，因为交叉预测模型仅能访问已观察到的训练数据分布。

图 6 展示了一个校准示例。可以看到，当让模型给出一个动物的名称时，该模型输出「猫」的概率为 60%，输出「熊」的概率为 30%，输出「蝙蝠」的概率为 10%。当被假设性地问道其响应的第二个字符时，一个经过完美校准的模型会预测出「a」的概率为 70%。

从图 6 右可以看到，相比于交叉预测和未经训练的模型，用自我预测训练的模型的校准水平明显更高。

模型预测它们的行为变化

当自省式模型的对象级行为发生变化时，它应该有能力改变有关自身的预测结果。他们使用了微调来诱导自我预测训练的模型（M1）的 ground-truth 行为发生变化，并研究其自我预测是否会相应地变化。如果会变，则能提供支持自省的间接证据，因为这种变化的行为不可能根据微调数据完美地预测出来。实验设置见图 7。

图 8 展示了实验结果。可以看到，M_C（GPT-4o）能以 35.4% 的准确度预测其新行为，相较之下，预测其旧行为的准确度只有 21.7%。不同行为属性和数据集都能得到类似结果。

其它解释

不过，该团队也表示，除了用自省来解释上述结果，也可能为其找到其它解释。该团队做了一点简单的讨论：

自我预测模型可能学会简单的规则，例如始终重复序列中的最后一项。如果确实如此，那么前述的交叉预测实验结果就表明更强大的模型也能预测简单规则，因此自我预测的优势就不应该存在了。但实际上，在不同的交叉组合上，自我预测的优势都一直存在。
自我预测训练可能会让模型的行为变得更加容易预测。为了排除这种情况，他们对提示词进行了重新采样，以确保未经训练和经过训练的模型的行为分布具有相似的熵，最终发现结果成立。

进一步实验和负面结果

他们还进行了其它实验，展示了当前内省能力的局限性，下面简单总结了一下，详见原论文：

无法预测涉及较长响应的属性。
模型在预测自身行为方面没有优势的情况。
缺乏向其它自我知识数据集的泛化。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941375&idx=2&sn=610103cc2bf9111a0e15c49650f894b3

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉