首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

研究人员提出多语言模型优化方法，利用模型语言不平衡特性提升多语言能力

科技 2024-11-01 17:54 北京

近年来，大模型在自然语言处理领域取得了显著进展，尤其在英语、中文等主导语言的任务上表现尤为突出。

然而，这些模型在非主导语言上的能力提升却一直面临瓶颈，导致多语言模型的应用场景受限。

现有的解决方案大多依赖增加高质量多语言数据或通过跨语言对齐来提升非主导语言的表现，这些方法存在成本高昂、数据获取困难、受限于主导语言性能上限等挑战。

为解决这一问题，来自中国科学院自动化研究所的研究团队首次探索利用语言不平衡作为先验偏好，来驱动模型进行多语言的自我提升。

通过一系列的迭代优化，他们不仅有效提升了非主导语言的表现，还在主导语言上实现了性能提升，开创了一种多语言自我优化的新范式。

研究人员表示：“我们期望通过这一方法为多语言大模型领域带来新的视角，塑造‘语言不平衡不仅是问题和挑战也是可学习利用的先验偏好’这一观念。”

同时，他们还希望该思路能够激发更多关于多语言自我优化的探索，推动更均衡、更强大的语言模型发展。

日前，相关论文以《语言不平衡驱动的多语言自我改进的奖励》（Language Imbalance Driven Rewarding for Multilingual Self-improving）为题发在 arXiv[1]。

图 | 相关论文（来源：arXiv）

中国科学院自动化研究所的杨文和武俊宏是共同一作，王晨是合作作者之一。指导老师为该所的张家俊研究员和宗成庆研究员，张家俊研究员担任通讯作者。

提出语言不平衡驱动的奖励机制

据研究人员介绍，当前的多语言大模型在训练过程中，通常依赖于大量的英文或中文等主导语言数据，这导致这些模型在非主导语言上的表现远逊于主导语言。

而在全球化的应用场景中，尤其是面向非主导语言的任务场景中，这种性能差异带来了较大的用户体验不均衡问题。

为了解决这一问题，本次研究提出了一种全新的优化机制，即语言不平衡驱动的奖励机制。

与以往单纯增加多语言数据或跨语言对齐的方法不同的是，该方法利用模型本身在主导语言和非主导语言上的性能差异，将该先验偏好转化为训练的奖励信号，通过迭代训练的方式能够逐步提升模型在不同语言上的表现。

图｜语言不平衡驱动的自我优化机制框架图（来源：arXiv）

这一方法主要具备三大创新点：

其一，语言不平衡驱动的奖励信号。

本次研究以一种全新的视角将模型在主导语言和非主导语言表现上的差异转化为奖励信号，使得模型在迭代训练中可以同时优化主导语言和非主导语言的性能。

相比传统的跨语言对齐方法，该方法通过内生的语言不平衡，消除了对大量人工标注数据的依赖，且有效突破了主导语言的性能上限。

其二，迭代直接偏好优化（Iterative Direct Preference Optimization）。

即该方法采用了基于 DPO（Direct Preference Optimization）的优化算法，模型在每轮迭代中生成多语言回复，并通过自我翻译保持语言偏好排名，从而生成用于下一轮训练的偏好数据集。

DPO 通过结合负对数似然损失函数，则能有效提高模型的对齐性能和多语言能力。

其三，自我优化。

本次方法通过自我翻译和偏好对比优化，逐步实现多语言模型的自我提升。

在模型的每轮迭代中，不仅能够有效提升非主导语言的表现，还在主导语言上实现了性能提升，开创了一种多语言自我优化的新范式。

为了验证这一方法的有效性，课题组使用 Meta-Llama-3-8B-Instruct 模型作为实验基准，并在指令跟随任务和数学推理任务上进行了测试。

实验结果显示，在提升非主导语言表现的同时，主导语言（如英语）的性能也得到了显著提升。

例如，在第一次迭代后，英语的性能提升了 15.3%，并在第二轮迭代中能够继续提升。

这证明模型不仅能优化非主导语言，还能通过这种机制突破主导语言的性能瓶颈，进一步推动模型的自我优化。

图 2 | 迭代过程中模型的胜率比较（来源：arXiv）

同时，本次方法通过多轮迭代训练，让模型的多语言能力获得了显著提升，特别是在英语、西班牙语、俄语、德语、法语等 5 种语言的测试中，平均提升了 7.46%。

这展示了本次方法的广泛适用性以及在主导语言和非主导语言之间的同步提升能力。

表 4 | X-AlpacaEval 排行榜（来源：arXiv）

在多语言模型训练中，该团队还分析了奖励信号强度的迭代变化。对于训练语言（如英语、法语等），除英语外的高奖励语言在首次迭代后逐渐转为低奖励状态，从而能够推动模型的自我优化。

对于模型训练过程中未出现的语言，意大利语的奖励准确度随英语能力提升而上升，而 DPO 训练中的偏好（如减少脱靶回复）则在日语上表现突出，导致首次迭代之后的日语奖励准确度下降。

图 3 | 奖励信号随模型迭代的变化（来源：arXiv）

在数学推理基准测试中，模型的整体准确率提升了 13.9%，尤其是在非主导语言上的推理能力得到了显著加强。

实验结果表明，该方法不仅在多语言指令跟随任务上表现优异，在复杂的推理任务中也有良好的表现。

表 5 | 多语言数学推理基准测试的性能（来源：arXiv）

总的来说，本次研究提出了“语言不平衡驱动的奖励模型”，通过利用主导语言和非主导语言之间的内在不平衡，能够持续优化大模型的多语言能力。

经过两轮的迭代训练之后，实验结果显示非主导语言（如德语、俄语等）的表现显著提升，而主导语言（如英语）的性能也得到了同步改善。

这证明自我改进机制可以有效促进多语言模型在各语言间的平衡发展，且无需依赖人工标注数据。

研究人员表示：“该研究不仅为多语言模型的自我改进提供了新的思路，还展现了模型在语言内部优化和自我提升方面的潜力。”

未来，他们计划探索更精细的奖励信号，以便提高多语言自我改进的效率。同时，其也会继续优化翻译质量，减少翻译过程中的误差，进一步提升回复质量。

目前，本次项目的代码已经在 GitHub 开源（项目地址：https://github.com/ZNLP/Language-Imbalance-Driven-Rewarding）。

随着这项方法的不断优化，该团队相信未来的多语言大模型将能够以更高效、更包容的方式，应对来自世界各地的语言需求，推动人工智能技术在全球的普及与应用。

参考资料：

1.https://arxiv.org/abs/2410.08964

代码仓库：https://github.com/ZNLP/Language-Imbalance-Driven-Rewarding

运营/排版：何晨龙

01/ 可同时用于塑料降解与绿色制氢？科学家制备单原子铁催化剂，有望减少依赖传统化石燃料

02/ 科学家发现新型自由基聚合模式，开发功能化聚烯烃材料，或可突破扩链剂进口依赖

03/ 科学家打造复合催化剂，只需水和阳光就能将二氧化碳转化生成甲醇和一氧化碳，可用于废气处理领域

04/ 科学家基于AI构建蛋白质组年龄时钟，发现衰老与18种疾病风险密切相关，为预测衰老和治疗疾病提供新工具

05/ 颜水成团队提出混合注意力头模型，基于通用型基础网络结构，计算资源受限也能提升模型适用性

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649759161&idx=3&sn=16fd58cd3097034f46a7e7c599d8a7bf

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

最新文章

科学家开发无柱纯化高性能蛋白质制备方法，纯度达到98%，可用于研发酶制剂和诊断试剂

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉