让大模型在自博弈中不断进化，与人类偏好对齐，Deepmind联合芝加哥大学团队提出开放式RLHF框架eva

科技 2024-11-05 17:09 北京

大语言模型（Large Language Model，LLM）能自己对自己进行优化，与人类的偏好进行对齐吗？

此前，LLM 对齐的主流方法还是通过人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF）对模型进行微调，但这种方法通常依赖于静态的人工提示分布。随着语言模型的能力不断增强，单纯依赖人工生成的提示数据已经难以满足其自我进化的需求。

这是因为，固定的数据集限制了模型在处理新任务时的适应能力，致使模型在面对新的或复杂的任务时可能表现不佳。并且，人工提示的生成过程费时费力，并且部分提示的有效性较低，导致模型在训练过程中可能会浪费大量资源在无效的提示上，造成计算资源和时间的浪费。

因此，如何更高效地生成和利用提示，成为了提升 RLHF 效率和扩展性的关键。

今年五月，曾提出仅靠自我博弈就能提升大模型性能的微调方法 SPIN (Self-Play Fine-Tuning) 的顾全全教授团队，利用自我博弈的方法，又开发了一种名为自我博弈偏好优化（Self-Play Preference Optimization, SPPO）的对齐技术，使得大模型得以通过左右互搏提高了自身与人类偏好的对齐度 [1]。

图丨相关论文（来源：arXiv）

然而，由于 SPPO 主要依靠已有偏好数据进行优化，导致泛化能力不足；其对称博弈机制容易让模型陷入局部最优，对模型表现力的依赖也限制了对齐效果。这些问题共同制约了 SPPO 在更复杂任务和广泛应用场景中的实际表现。

于是，为实现更有效的模型对齐，来自 Google DeepMind 和芝加哥大学的研究团队提出了一种称为"Evolving Alignment via Asymmetric Self-Play"（eva）的新型开放式 RLHF 框架，对上述局限进行了改进。

相关论文以《通过非对称自我游戏不断调整偏好——超越人类静态提示的可扩展微调技术》（Evolving Alignment via Asymmetric——Self-Play Scalable Preference Fine-Tuning Beyond Static Human Prompts）为题发表在预印本网站 arXiv 上 [2]。

芝加哥大学博士生 Ziyu Ye 是第一作者，Deepmind 研究员 Yuan Liu 是通讯作者。

图丨相关论文（来源：arXiv）

eva 框架的核心思想是将语言模型的对齐过程转化为两个角色之间的不对称博弈（asymmetric self-play），即“生成器”（Creator）和“求解器”（Solver）之间的相互作用。

传统的自训练通常仅在固定的提示集（X）上优化响应生成（Y），即在给定的提示下产生更优质的响应。而 eva 在优化过程中会同时考虑提示生成（Y）和响应生成（Y）两个方面。也就是说，不仅优化模型对固定提示的响应生成能力，还动态调整提示的生成分布，使得模型能够应对更广泛的任务。

在 eva 的框架中，生成器的职责是生成新的提示，以推动模型学习的不断进化。具体而言，生成器通过“估计、采样和进化”这三个步骤来优化提示集：首先，它对每个提示的信息量进行估计，基于模型在某个提示下的最优回答和最差回答的得分差距来确定提示的学习潜力。

接着，生成器会根据这个信息量对提示进行加权采样，选择出更具学习价值的提示子集。

最后，生成器对采样得到的提示进行演化，生成新的、更加复杂或具有更多约束的提示，使得模型在这些新的提示下能够面对更加具有挑战性的任务。

图丨 evaPipeline 设计（来源：arXiv）

与生成器相对，求解器的职责则是根据生成器生成的提示，学习如何生成更符合人类偏好的回答并优化其生成策略。

求解器在博弈中的角色是通过使用 RLHF 或者其他偏好优化算法（如 DPO 或 SPPO）来不断改进其回答的质量。在每个博弈回合中，生成器生成新的提示，求解器对这些提示进行响应，通过生成多个回答并对其进行奖励评分，从而逐渐学习如何在新提示下生成更优质的回答。

这种博弈过程本质上是一种通过最小化和最大化“后悔值”的方式来达到动态平衡的自我博弈。求解器的目标是尽可能减少生成不佳回答的机会，即最小化后悔值，使得它的回答能够最大程度接近最优。

而生成器的目标则是不断生成更具挑战性和信息量更高的提示，以确保求解器在面对这些提示时不断进步。这种提示生成策略通过奖励信号对比来优化，即通过寻找那些让模型在回答质量上存在显著差距的提示，来激发求解器的学习潜力。

这种博弈类似于对抗学习，但由于生成器和求解器承担着不同的角色和目标，它是一种非对称博弈。在这种机制下，生成器通过不断进化的提示来激发求解器的学习潜力，推动模型在更广泛和复杂的任务中实现自我优化。

实验结果显示，eva 显著提升了模型在多个基准测试上的表现，且在不同的偏好优化算法（如 DPO、SPPO、SimPO 和 ORPO）中均表现出色。例如，在更难的 Arena-Hard 测试中，eva 将采用 SimPO 算法作为求解器的模型胜率从 52.3% 提升至 60.7%，表现甚至超过了接受过额外的人类新提示训练的模型，同时成本更低，效率更高。

图丨在不同测试集的实验结果（来源：arXiv）

值得一提的是，研究团队还对 eva 的持续训练能力进行了验证。在连续多次的增量训练中，eva 展现出持续的性能提升，且在训练过程中其表现超过了直接使用人类新提示的数据进行训练的基线模型。这表明，eva 不仅能够更高效地利用训练数据，还能够不断从演化的提示中获得新的学习机会，实现模型的持续优化。

图丨 eva 在迭代过程中呈现出单调的性能提升，并且超过了使用新的人类提示进行训练的性能。（来源：arXiv)

总结来说，eva 定义了一种新的对齐范式，展示了自我进化在模型对齐中的潜力，并为未来智能体的持续优化提供了新思路。如扩展生成器策略、增加迭代次数、探索自动化对齐以及扩展到推理任务等。此外，探索其他数学指标（如 Fisher 信息）以获得理论上的对齐保证，以及使用更多数据来扩展模型能力，也是值得探索的方向之一。

这篇论文的合作者之一是谷歌大脑研究科学家 Quoc V. Le，他是自然语言处理领域的 doc2vec 和 Seq2Seq 模型模型的共同发明人之一，还发起并领导了谷歌大脑的 AutoML 计划，曾入选 2014 年度《麻省理工科技评论》“35 岁以下 35 名全球科技创新者”。

参考资料：

1.https://arxiv.org/abs/2405.00675

2.https://arxiv.org/abs/2411.00062

运营/排版：何晨龙

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649759388&idx=1&sn=159b0c1e566b641c8ba2e4661f12f8a6

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉