NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

科技 2024-11-18 12:41 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

自我纠错（Self Correction）能力，传统上被视为人类特有的特征，正越来越多地在人工智能领域，尤其是大型语言模型（LLMs）中得到广泛应用，最近爆火的OpenAI o1模型[1]和Reflection 70B模型[2]都采取了自我纠正的方法。

传统的大语言模型，因为在输出答案的时候是逐个Token输出，当输出长度较长时，中间某些Token出错是必然发生。但即使LLM后来知道前面输出的Token错了，它也得用更多错误来“圆谎”，因为没有机制让它去修正前面的错误。

而OpenAI o1在“慢思考”也就是生成Hidden COT的过程中，通过分析OpenAI官网给出的Hidden COT例子可以发现，在解决字谜问题的思考过程中，o1首先发现了每两个连续的明文字母会映射到一个秘文字母，于是便尝试使用奇数字母来构建明文，但是经过验证发现并不合理（Not directly）；接着又重新修正答案最终成功解出字谜。

图1 OpenAI o1 官网示例（部分Hidden CoT）

Reflection 70B的关键技术也包括错误识别和错误纠正。他们用到了一种名为 Reflection-Tuning（反思微调） 的技术，使得模型能够在最终确定回复之前，先检测自身推理的错误并纠正。在实际的执行过程中，这会用到一种名为思考标签（thinking tag）的机制。模型会在这个标签内部进行反思，直到它得到正确答案或认为自己得到了正确答案。

频频应用于大语言模型的自我纠错技术为何有效？为什么纠错过程可以让模型把原本答错的问题重新答对？

为了探究这一问题，北大王奕森团队与MIT合作，从理论上分析了大语言模型自我纠错能力背后的工作机理。

论文题目：A Theoretical Understanding of Self-Correction through In-context Alignment
论文地址：https://openreview.net/pdf?id=OtvNLTWYww
代码地址：https://github.com/yifeiwang77/Self-Correction

作者团队将自我纠错的过程抽象为对齐任务，从上下文学习（In-context learning）的角度对自我纠错进行了理论分析。值得一提的是，他们并没有使用线性注意力机制下的线性回归任务进行理论分析，而是使用真实世界LLM在用的softmax多头注意力机制的transformer结构，并利用Bradley-Terry 模型和 Plackett-Luce 模型（LLM对齐的实际选择，用于RLHF和DPO）设计对齐任务进行研究。受理论启发，他们提出了一种简单的自我纠错策略--上下文检查（Check as Context），并通过实验，在消除大语言模型中存在的潜在偏见以及防御越狱攻击中效果显著。

理论分析：自我纠错实际上是一种上下文对齐？

不同于类似监督学习的标准上下文示例（请求，回答），自我纠错示例可以形成一个三元组形式（请求，回答，奖励），这类似于通过奖励指示好坏样本的 LLM 对齐。因此，作者团队提出将自我纠错形式化为一种“上下文对齐”（In-context Alignment），即通过提供一系列自我纠错步骤的上下文，优化LLM的最终输出，以获得更高的奖励。

对齐的过程通常包括：对于问题，收集个不同的模型回答，然后由人类或评估模型（在本文中，评估模型即该 LLM 本身）对这个回答给出排序偏好。接着，使用一般的对齐模型（如Bradley-Terry (BT,n=2) or Plackett-Luce (PL loss, general n)）进行建模：

其中为奖励模型。

针对transformer模型，作者采用了带有softmax多头注意力机制的transformer结构，其前向传播更新可以分为两部分

多头注意力（MHSA）层：

FFN层：

奖励函数被设置为负均方误差（MSE）损失，即：

在该设置下，参数的梯度下降可等价于对数据的更新：

作者证明了多层transformer（包含3-head softmax attention和relu激活函数的FFN）可以利用自我纠错样本生成更优奖励的回答。具体而言，作者证明了存在模型权重，使得transformer可以通过在前向传播的过程中执行对其内部奖励模型参数的梯度下降，来生成更符合对齐目标的更优回答。

这是首次在理论上表明 LLM 可以在上下文中实现对齐的分析。该理论适用于多种自我纠错方法，因为评估可以来自人类、外部验证者或 LLM 本身。

图2 关于上下文对齐的验证实验，分别涉及TF和GD的比较（a）、不同奖励噪声p的影响（b）、模型深度的影响（c）、以及不同注意力机制的效果（d）、（e）、（f）。

作者也通过设置验证实验来检验其理论导出的种种结论，以及各个 transformer 结构模块对 LLM 执行上下文对齐能力的影响，作者发现了很多有趣的结论：

通过观察比较LLM在执行上下文对齐时前向传播的损失与梯度下降的损失曲线，LLM执行上下文对齐时的前传行为与梯度下降损失曲线几乎相同。（图2(a)）
评价的质量直接影响自我纠错的质量（图2(b)）。
对多样本的排序需要更深的模型层数，在达到一定深度后（15层），增加更多的层数并不能带来更高的收益。（图2(c)）
Softmax注意力机制对从评价中分析回答优劣排序至关重要，而linear注意力则做不到这一点。具体来说，softmax 注意力机制可以有效地选取最优回答并为各样本生成加权平均所需的权重。（图2(d)）
多头注意力机制对token角色的区分很重要。具体而言，多头注意力机制可以将生成的回答与正样本拉近，与负样本拉远。实验表明，3个attention head是上下文对齐任务中最优选择。（图2(e)）
FFN对于token角色的转变很重要。在经过一个MHSA层后，FFN可以将上一轮的正样本屏蔽掉，从而使次优样本变成下一轮迭代的最优样本。(图2(f))

自我纠错策略：上下文检查

作者使用上下文检查（Check as Context，CaC）作为LLM完成自我纠错的方法，在两个现实世界的对齐任务中探索了自我纠错：缓解社会偏见和防范越狱攻击。

图3 BBQ数据集上使用CaC的示例。

具体而言，首先对模型请求问题获得回答初始回答，然后对该回答进行评估，得到奖励。之后将初始回答,评估送入上下文，并重新请求问题，得到改正后的回答。此过程可多次重复以迭代改进回答，最终以最后一轮的模型回答作为模型的最终输出。

消除LLM社会偏见

本文使用 BBQ（Bias Benchmark for QA）数据集，在 vicuna-7B 和 Llama2-7b-chat 模型上测试了 CaC 方法的效果。此外，还在 BBQ 上研究了模型大小、评估质量和纠错轮数对纠错效果的影响。主要结论如下：

多数情况下，自我纠错后的正确率高于原正确率（图4）
正确率提升与自我评估的准确率高度相关（图4(c): ），甚至呈线性关系（图5（a））。
采用不同的评价方式效果依次提升：仅使用对/错评价 < 自然语言评价 < 包含 CoT 的对/错评价。这是因为 CoT 不仅能提高评价准确性，还能为模型提供额外的自然语言信息。（图5(b)）
更大的模型有更好的纠错能力（图5（c)(d)）
当评价的正确率足够高时，更多的纠错轮数可以带来更好的纠错效果。（图5（e)）

图4 CaC对于不同种类的偏见的修正

图5 BBQ上关于模型大小、评估质量以及纠错轮数的消融实验

同时，在防御越狱攻击的实验中，CaC也是所有测试的防御手段中最低的。

更多文章细节，请参考原文：https://openreview.net/pdf?id=OtvNLTWYww

参考资料：

[1] https://openai.com/index/introducing-openai-o1-preview/

[2] https://reflection70b.com/

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943381&idx=5&sn=9c504d61b7acb9a4220a5b2ae6fe4482

机器之心

专业的人工智能媒体和产业服务平台

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

1000多个智能体组成，AI社会模拟器MATRIX-Gen助力大模型自我进化

刚刚，谷歌宣布35岁Keras之父Francois Chollet离职

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

WHALE来了，南大周志华团队做出更强泛化的世界模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉