大模型的出现彻底改变了自然语言处理领域,使其在众多任务中取得了最先进的表现。但是这些进步主要惠及了如英语和中文等“一级”语言,许多其他语言却未能从中受益。来自中国科学院大学人工智能学院、中国科学院自动化研究所、武汉人工智能研究院和上海人工智能实验室的联合团队提出了一种新颖的语言不平衡驱动奖励方法,通过利用LLMs中主导语言和非主导语言之间的固有不平衡,作为一种奖励信号,以自我改进的方式提升其多语言能力。
他们研究动机源于现有LLMs在多语言能力上的显著差异,这种不平衡限制了其广泛应用。尽管以往的研究多将这种不平衡视为需要解决的问题,但他们的创新在于将其视为一种机会,通过迭代训练,不断优化模型在不同语言上的表现,从而实现多语言的自我提升。
技术的主要贡献有以下三点。
1.提出了一种语言不平衡驱动奖励的方法,利用语言不平衡作为奖励信号,提高LLMs的多语言能力。
2.通过迭代DPO训练,不仅显著提升了非主导语言的能力,还改善了主导语言的表现。
3.在Meta-Llama-3-8B-Instruct模型上进行实验,验证了该方法在指令跟随和算术推理任务中的有效性。
研究团队成员来自多个知名机构,包括中国科学院大学人工智能学院、中国科学院自动化研究所、武汉人工智能研究院和上海人工智能实验室。团队成员包括:Wen Yang, Junhong Wu, Chen Wang, Chengqing Zong1, Jiajun Zhang,值得关注的是论文主要贡献者杨文(Wen Yang)现在已是中科院自动化研究所的在读博士生。这支由多领域专家组成的团队,具备丰富的人工智能研究经验,为本相研究提供了坚实的理论及技术基础。他们的论文《LANGUAGE IMBALANCE DRIVEN REWARDING FOR MULTILINGUAL SELF-IMPROVING》发表于全球科研分享平台arXiv(地址:https://arxiv.org/abs/2410.08964),引起业内广泛关注。
为了确保研究的可复现性和透明度,研究团队在审查后将代码和模型权重公开发布到GitHub平台(项目地址:https://github.com/ZNLP/Language-Imbalance-Driven-Rewarding)。公开的代码库包括所有必要的实现细节、训练脚本和数据处理流程,以便研究人员可以按照相同的步骤复现本文的实验结果。同时训练好的模型权重也一同发布,使研究人员能够直接使用这些模型进行测试和扩展研究。随着这项方法的不断优化,未来的多语言大模型将能够以更高效、更包容的方式应对来自世界各地的语言需求,推动人工智能技术在全球的广泛普及与应用。
语言不平衡驱动奖励方法
语言不平衡驱动奖励方法的核心在于利用现有LLMs在多语言能力中的固有差异,作为提升其多语言能力的手段。方法的基础假设是现有模型在不同语言上的表现存在显著不平衡,而这种不平衡可以转化为一种奖励信号,通过迭代训练,不断优化模型在多语言任务中的表现。
图1:语言失衡驱动的奖励。方法包括两个步骤:(i)自多语言偏好对生成:分别使用多语言提示从Mt生成多语言响应。然后利用Mt在显性语言(如en)和非显性语言(例如es、de、ru)的响应之间进行相互翻译。最后利用LLM中固有的语言不平衡来构建多语言偏好对。(ii)多语言偏好优化:多语言偏好对由Mt自己构建,通过DPO+NLL目标用于训练,从而得到模型Mt+1。整个过程迭代重复,在每次后续迭代中增强模型在所有语言中的多语言能力,直到优化饱和。
假设现有的LLMs在多语言能力上存在显著差异,特别是对于主导语言(如英语)和非主导语言(如西班牙语、德语)之间的性能差异。这种差异不仅影响了模型在实际应用中的广泛性,还限制了其在多语言环境中的适用性。基于这一假设,研究提出通过利用这种固有的不平衡,构建一种自我改进的奖励机制,以增强模型的多语言能力。
语言不平衡驱动奖励方法包括两个主要步骤:自我多语言偏好对生成和多语言偏好优化。这一方法从具备基本多语言生成能力的指令模型开始,通过迭代训练,不断优化模型在不同语言上的表现。
在每次迭代中,首先生成多语言偏好对数据。具体来说,当前模型会生成对应于多语言指令的响应,然后利用模型的自我翻译能力,在主导语言和非主导语言之间进行翻译。这个过程保持了由于语言不平衡而产生的偏好排序,从而构建出多语言偏好对数据集。
在多语言偏好对数据集生成后,使用DPO(Direct Preference Optimization)变体进行优化训练。通过最大化选择输出的概率,最小化不理想输出的概率,逐步提高模型在多语言任务中的表现。优化目标包括DPO损失和负对数似然损失,以确保训练过程中的稳定性和效果。
语言不平衡驱动奖励方法的理论基础在于,主导语言和非主导语言之间固有的性能差异可以作为一种自然的偏好排序。由于这种偏好排序在翻译过程中基本保持不变,因此可以利用它构建多语言偏好对数据集,进而在训练中作为奖励信号进行优化。通过这种方法,不仅能够提升非主导语言的表现,还能改善主导语言的能力,实现模型在多语言任务中的全面提升。
这种创新性方法不仅为LLMs的多语言自我改进提供了新的思路,也为多语言自然语言处理领域的研究开辟了新的方向。通过不断优化和迭代训练,模型能够在多语言任务中表现得更加优异,从而更好地满足全球用户的需求。
实验设置
语言不平衡驱动奖励方法在实际应用中的效果,通过一系列精心设计的实验进行了验证。以下是实验的具体设置和评估方法。
基础模型选择
实验中选择了Meta-Llama-3-8B-Instruct作为基础模型。该模型在处理英语等主导语言的任务时表现出色,但在处理非主导语言时存在一定偏差。为了验证方法的泛化能力,还扩展测试了Qwen2-7B-Instruct模型。
图2:Llama-3-8B-Instruct模型上的语言不平衡驱动奖励提高了多语言教学跟踪能力。
语言及数据集
选择英语作为主导语言,德语和俄语作为高奖励语言,西班牙语和法语作为低奖励语言。此外,还选择中文作为未见过的语言,用以观察方法的泛化能力。使用的主要数据集为Alpagasus数据集,其中包含从Alpaca数据集中筛选出的9,000个高质量指令跟随示例。此外,我们从Alpagasus数据集中抽样1,000个提示,并使用Google Translate API将它们翻译成多种语言,以获得多语言提示。
实现细节
每次迭代训练一个epoch,训练过程中使用的全局批量大小设置为16,学习率为5e-7。模型的初始化从基础模型开始,并在每次迭代中使用更新后的模型生成新的多语言偏好对数据进行进一步训练。具体实现细节和参数设定在论文附录中有更详细的描述。
评估和指标
头对头表现 评估模型在多语言任务中的头对头表现,通过与基础模型和迭代模型的对比,使用GPT-4对805个测试提示进行评估。详细评估设置见附录。
X-AlpacaEval排行榜 扩展现有的AlpacaEval 2.0工具包,从仅限英语的框架扩展到多语言框架,对比多个开源和专有多语言模型在多语言指令跟随能力上的表现。
多语言MT-Bench 使用MT-Bench评估模型在多轮对话和指令跟随任务中的表现,GPT-4 Turbo对模型响应按10分制进行评分。
多语言NLP基准测试 评估模型在多语言版本的MMLU、HellaSwag、ARC Challenge和TruthfulQA基准测试中的表现,以衡量方法的对齐税。
这些实验设置和评估方法旨在全面验证语言不平衡驱动奖励方法的有效性,评估模型在不同语言任务中的表现提升情况。
实验结果
论文的实验结果清晰地展示了语言不平衡驱动奖励方法在多语言任务中的有效性和提升表现。
多语言MT-Bench性能表现
在多语言MT-Bench基准测试中,模型在训练迭代过程中表现出显著提升。具体而言,基础模型Meta-Llama-3-8B-Instruct(M0)在MT-Bench中的平均得分为6.80,而经过两轮迭代(M2)后,该得分提升至7.51。这一改进主要源于初始模型中强奖励信号的作用,尽管在迭代过程中信号有所减弱,但整体表现持续提升。
对多语言NLP基准测试的对齐税
对齐税问题是指在指令微调和RLHF过程中,模型可能会遗忘之前学到的知识,导致性能下降。为了评估这一点,论文在多语言NLP基准测试中进行了详细实验。结果表明,迭代训练不仅没有导致性能下降,反而略有提升。例如,基础模型在多个基准测试中的表现为:MMLU(0.5666)、HellaSwag(0.4724)、ARC Challenge(0.4228)和TruthfulQA(0.5076)。经过两轮迭代后,模型的表现分别提升至:MMLU(0.5687)、HellaSwag(0.4763)、ARC Challenge(0.4321)和TruthfulQA(0.5165)。这些结果表明,使用语言不平衡驱动奖励方法不会引入显著的对齐税问题。
奖励信号变化分析
为了更详细地理解奖励信号在迭代中的变化情况,论文对训练语言和未见语言的奖励信号强度进行了分析。结果显示,对于高奖励语言(如德语和俄语),在第一次迭代后奖励信号逐渐减弱,而低奖励语言(如西班牙语和法语)则保持相对稳定。这种变化趋势使得自我改进过程能够持续迭代。未见语言(如意大利语和日语)的奖励信号也显示出稳步提升,特别是在英语能力不断提高的情况下。
总的来说,研究团队的实验结果充分证明了语言不平衡驱动奖励方法在提升多语言能力方面的显著效果,同时也表明这一方法能够在不同语言和任务中保持一致的表现提升。
算术推理
算术推理任务被认为是语言模型的一个难点,因为它不仅要求模型具备语言能力,还需要强大的逻辑和推理能力。论文提出的语言不平衡驱动奖励方法同样适用于这一任务,通过在不同语言中进行算术推理,验证该方法的有效性。
实验设置
在算术推理任务中,基础模型依然选择Llama-3-8B-Instruct,使用多语言GSM8K数据集进行实验。GSM8K数据集包含手动翻译的250道数学题目,涵盖十种不同的语言。实验中,评估指标包括推理准确性和偏离目标率,通过这些指标衡量模型在多语言算术推理任务中的表现。
结果分析
图3:迭代过程中的奖励准确性。
实验结果表明,语言不平衡驱动奖励方法在算术推理任务中同样表现出色。相比多语言对齐方法,使用该方法的模型在所有训练语言和未见语言上的表现均有所提升。具体而言,第二次迭代(M2)的推理准确性相较于基础模型(M0)有显著提高,如英语从0.700提高到0.720,西班牙语从0.456提高到0.640。而偏离目标率也相应降低,表明模型的生成结果更加准确。
对于未见语言(如日语和泰语),该方法也展示了良好的泛化能力,推理准确性和偏离目标率均显著改善。例如,日语的推理准确性从0.284提升到0.476,偏离目标率从0.280降至0.004。这些结果表明,通过利用语言不平衡驱动奖励信号,模型不仅在训练语言中表现优异,还能有效扩展到未见语言,显示出强大的跨语言推理对齐能力。
相关工作
研究领域中的自我改进方法和多语言大型语言模型(LLM)的进展,为论文提供了坚实的理论基础和实践背景。
LLM自我改进方法
LLM的自我改进方法主要分为自我合成和自我批判两大类。自我合成涉及模型自身生成合成训练数据,例如Self-Instruct方法,通过独立生成提示和响应,提升基础语言模型的能力。指令回译也是一种类似方法,通过从网络文档中反向翻译生成指令,增强和完善训练数据。
自我批判则是利用LLM作为评判者评估数据质量的过程。自我奖励方法通过使用LLM自身提供的奖励机制,提升模型的整体能力。尽管这些方法在增强语言模型的综合能力上取得了显著进展,但它们通常未探索在不同语言中的自我改进。这正是研究团队的独特之处,提出了一种能够在多语言环境中实现自我改进的方法。
多语言LLM研究进展
当前的LLM,诸如Llama系列、Qwen系列等,大多训练于多语言语料库,但数据分布主要集中在英语和中文。这种不平衡的数据分布导致了LLM在大多数语言上的能力受到限制。增强多语言能力的一种直接方法是进行多语言训练,即在预训练、指令跟随和后训练阶段使用多语言数据。然而,高质量的多语言数据尤其是低资源语言的数据依然稀缺且昂贵。
跨语言对齐是另一种方法,旨在通过对齐非主导语言和主导语言的能力,缩小性能差距。这种方法利用跨语言迁移、跨语言指令调优和自我蒸馏等技术,尽管在提升非主导语言能力方面有所成效,但依然受限于主导语言的初始性能。
研究的方法通过利用语言不平衡作为奖励信号,不仅消除了对人类创作数据的依赖,还突破了主导语言的性能上限,提供了一种新的多语言自我提升路径。
结论
研究成果总结
研究团队提出的语言不平衡驱动奖励方法,通过利用现有大型语言模型(LLMs)中主导语言和非主导语言之间的固有不平衡,作为一种奖励信号,以提升多语言能力。研究成果展示了通过迭代训练,不仅能显著增强非主导语言的表现,还能改善主导语言的能力。具体实验结果表明,该方法在Meta-Llama-3-8B-Instruct模型上,在指令跟随和算术推理任务中均取得了显著进步,提升了模型在多语言环境中的表现。
方法的优势
利用现有不平衡:该方法巧妙地将LLMs中固有的多语言性能不平衡转化为一种奖励信号,无需额外的人工创作数据,从而降低了资源需求。
迭代自我改进:通过迭代训练,模型能够在多轮次优化中不断提升多语言能力,且主导语言和非主导语言均受益。
全面性能提升:不仅在非主导语言上表现出色,主导语言(如英语)的能力也得到了显著提升,解决了传统方法中对主导语言性能下降的问题。
良好的泛化能力:实验表明,该方法在未见语言上的表现同样优异,证明了其跨语言对齐和推理能力的强大。
对未来研究的启示
研究成果为多语言自我改进开辟了新的路径,同时也提出了多个未来研究的方向。
为了进一步提升模型的多语言自我改进能力,可以探索和开发更精细、更准确的奖励机制。例如,结合语义相似度、句法结构和上下文关联等多维度信息,构建更加复杂的奖励信号。
进一步优化模型的自我翻译能力,减少翻译过程中的错误和瑕疵。可以结合先进的翻译技术或引入多模型协同翻译机制,提高翻译结果的准确性和流畅度,从而提升多语言响应的质量。
在保证模型性能提升的同时,研究如何更高效地利用计算资源,减少训练时间和成本。例如,采用分布式训练技术、多GPU协同计算,以及模型压缩和加速技术,提升训练效率。
将语言不平衡驱动奖励方法应用于更多任务场景,如问答系统、对话生成、自动摘要等,进一步验证方法的通用性和实用性。
此外,还可以探索该方法在低资源语言和方言中的应用,提升这些语言在LLMs中的表现,通过这些方向的进一步探索和优化,相信语言不平衡驱动奖励方法将为多语言自然语言处理领域带来更多创新和突破。(END)
参考资料:https://arxiv.org/pdf/2410.08964
波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。
加入AI交流群请扫码加微信