前沿人工智能浪潮席卷全球,大语言模型(LLM)以其强大的文本理解和生成能力,成为前沿AI皇冠上最耀眼的明珠。然而,当前LLM大多以英语为中心,对其他语言,尤其是低资源语言,支持不足,这不仅限制了LLM全球化应用,也加剧了数字鸿沟,损害了文化多样性。试想,一个无法理解和尊重不同语言、不同文化的AI大模型,如何实现普惠智能?
为推动多语言大模型研究和产业应用,并使其成为打破语言障碍、弥合全球数字鸿沟的中坚力量,近日,天津大学自然语言处理实验室(TJUNLP)联合里斯本大学自然语言与语音实验室(NLX),深入调研,重磅发布了一份长达109页的多语言大语言模型核心技术和前沿进展系统性研究报告,该报告正文56页,引用了超过430篇参考文献,对多语言大语言模型(MLLM)进行了全面深入的剖析和梳理。
研究报告涵盖了多语言语料库构建、模型架构设计与优化、预训练目标选择与改进、多语言微调策略探索与应用、多语言大模型评测、可解释性研究,以及MLLM在生物、医学、计算机科学、数学、法律等领域的广泛应用。报告不仅对现有研究进行了系统梳理和总结,更重要的是,它指出了当前MLLM研究面临的瓶颈和挑战,并讨论了未来MLLM研究的重点方向,如低资源语言处理、跨文化知识迁移、模型安全性和可解释性等。
特别值得一提的是,该综述报告还关注了负责任的AI发展理念,强调了MLLM在促进跨文化交流、保护语言多样性、弥合数字鸿沟等方面的巨大潜力。该报告,不仅为研究人员提供了一份全面而翔实的研究指南,也为构建更加公平、普惠、可持续的AI发展指明了方向。它呼吁全球AI研究者携手合作,共同攻克MLLM研究中的难题,让AI的福祉惠及所有语言群体,让科技的进步真正造福全人类。
图1 arXiv论文
论文arXiv地址:
https://arxiv.org/abs/2411.11072
论文参考文献详细列表:
https://github.com/tjunlp-lab/Awesome-Multilingual-LLMs-Papers
论文目录:
综述简介
图2多语言大模型技术体系
该综述以图2所示的MLLM系统性分类框架为基础,对多语言大型语言模型的最新研究进行了全面且深入的探讨。综述旨在解答MLLM的核心问题,包括MLLM能力边界、语言边界、构建和调优关键因素,以及如何有效评估多语言迁移能力等。核心内容包含:
多语言语料库:构建强大的MLLM离不开高质量的多语言数据。综述详细分析了各种多语言数据集的来源、规模和特点,包括网络爬取数据(如Common Crawl、mC4)、书籍数据(如古腾堡计划、Anna's Archive)、代码数据(如BigCode)、学术论文数据(如arXiv)等。此外,综述还探讨了数据清洗、去重、质量控制等关键步骤,以及如何平衡不同语言数据间的比例,以确保MLLM的训练效果和公平性。
模型架构:详细比较了MLLM常用的神经架构,包括稠密型Transformer、稀疏型混合专家 (MoE) Transformer以及其他非Transformer架构(如RWKV、Mamba)。综述分析了每种架构的优缺点,如稠密型Transformer的并行计算能力和MoE Transformer在参数规模扩展方面的优势,并探讨了如何根据不同应用场景选择合适的神经架构。
预训练和微调方法:深入讨论了MLLM的预训练和微调方法,包括预训练目标(如掩码语言建模、下一词预测、翻译语言建模)、预训练策略(如数据打包、多阶段预训练)、以及微调技术(如指令微调、偏好微调、持续预训练)。综述还特别关注了跨语言迁移学习的有效策略,如直接多语言微调和基于跨语言对齐的增强微调。
评估方法:为客观评估MLLM的性能,综述回顾了各种多语言评估基准和数据集,并提出了一个涵盖跨语言知识、推理能力、与人类价值观的一致性、安全性、可解释性和专业应用等方面的评估体系。综述还探讨了如何利用LLM本身进行多语言评估,以及如何评估多语言分词器的性能。
可解释性: 理解MLLM的内部工作机制对于提高模型的可靠性和可信度至关重要。综述探讨了如何解释MLLM的多语言能力,包括模型如何表示多语言知识、如何进行跨语言迁移,以及语言偏差的成因。综述介绍了各种可解释性方法,如基于模型、组件、神经元和表示的可解释性方法。
应用场景:MLLM在众多领域展现出巨大的应用潜力。综述回顾了MLLM在生物医学、计算机科学、数学、法律等领域的实际应用案例,并分析了MLLM如何推动这些领域的创新和发展。同时,综述也指出了MLLM在实际应用中面临的挑战,如数据获取、领域专业知识的整合、以及伦理和社会影响等。
未来方向与挑战:MLLM的未来研究方向包括拓展对低资源语言的支持以实现更具包容性的语言覆盖,增强跨语言迁移能力以提升跨语言任务性能,改进模型架构和训练算法以提高效率和可扩展性,并深入研究可解释性和可控性以增强模型的透明度和可靠性。然而,MLLM的发展也面临诸多挑战,如低资源语言数据稀缺和质量问题、缺乏统一的评估指标和基准、高昂的计算资源需求、潜在的伦理和社会影响(如偏见和虚假信息),以及模型可解释性和可控性方面的技术难题。克服这些挑战需要学术界、工业界和政府共同努力,确保MLLM技术的健康发展并造福所有语言使用者。
一、多语言大模型语料库
数据是多语言大模型训练性能好坏的决定性因素之一,数据的数量和质量决定了大模型训练的效果。综述从预训练、监督微调(SFT)、人类反馈强化学习(RLHF)三个方面分别探讨了多语言训练数据的数量、质量及特点,为MLLM训练提供参考。
1.预训练数据
预训练数据是多语言大模型的基石,决定了模型的语言广度和通用能力。综述分析了当前用于多语言大模型的大规模预训练数据,主要关注多语言数据,分为网页、书籍、代码、论文等多个类别,并提供了几乎所有开源预训练数据信息的统计,包括数据量,数据获取方式,数据获取时间,并特别关注了其中的语言数量分布,尤其是非英语和低资源语言,数据详情见表1。
表1 预训练数据统计
2.SFT数据
在监督微调阶段,指令数据的设计直接影响模型的特定任务表现。综述统计了多语言场景下不同领域、任务下高质量的多语言SFT数据,根据数据来源,划分为人工生成,AI合成,以及二者混合组成的数据,详细介绍了几乎所有开源多语言SFT指令数据集,从数据规模、质量、生成方式多个角度进行了分类和介绍。数据详情见表2。
表2 SFT数据统计
3.RLHF数据
RLHF是提升大模型与人类交互质量的关键环节。但是多语言RLHF数据远不如SFT和预训练数据充足,RLHF数据需要高质量的人类标注数据,而SFT数据则可以使用模型生成,这导致了RLHF数据的匮乏,尤其是多语言RLHF数据更为匮乏。综述介绍了几个现有的多语言RLHF数据集,主要来源于人类和模型的对话打分。
二、多语言大模型架构
由于多语言大模型通常在单一的架构中处理多种语言,不可避免的需要更有效的架构来保证参数的高效,以确保在更广泛的语言范围内实现均衡的性能。多语言大模型综述详细概述了目前多语言大模型常用的架构,包括主流的稠密Transformer架构及其MoE稀疏形式,和新兴的模型架构,如图3所示。除了概述模型框架之外,综述还简述了不同模型的细节上的不同选择,以及对比多语言大模型与单语大模型的不同之处。
稠密Transformer架构在单语大模型上的成就已经证明了其有效性,也因此成为了目前多语言大模型的主流架构。在每个模块部分,当今的许多研究也提出了诸多变体,旨在提高模型整体的性能或效率。该综述阐述了单语大模型在不同模块下的尝试,以及其决策的原因,并且对比了多语言大模型在架构上的选择与单语模型的异同之处。
稀疏Transformer架构即专家混合模型(MoE)展示出了巨大的发展潜力,能够以较少的激活参数量匹配更大参数量的稠密模型的性能。本综述概述了MoE近期的发展,如不同专家配置策略,并且简述了MoE强大的扩展的潜力。并且为多语言大模型在MoE上的尝试提出了新的有待尝试的观点。
除了主流的Transformer架构外,综述还讨论了新兴的近似线性架构,如RWKV和Mamba,以及多种结构混合形式:Jamba。这些架构在明显提高模型效率的同时,保持或超越了和同等规模Transformer模型近似的性能,但其可扩展性仍然值得进一步探索。
图3 多语言大模型架构
三、多语言大模型预训练与微调方法
多语言大模型预训练的核心技术在于多语言数据的收集和预处理。研究表明,高质量、经过去重的预训练数据对于提高多语言大模型的性能至关重要。大部分预训练数据来源于网络,针对这些数据的预处理方法通常包括语言识别、质量筛选、安全过滤、去重处理以及特定域的上采样这五个步骤。此外,预训练的目标和策略对于模型的最终表现也至关重要。
多语言大模型的微调以一些常见的微调策略为基础,包括指令微调、偏好微调和持续预训练(如图4)。这些基础的微调技术被用于将大模型的通用能力适配到特定的下游任务。基于这些基础的微调技术,多语言微调技术旨在将模型的能力进一步拓展到多语言,综述总结了以下三种多语言微调策略:直接多语言微调、通过跨语言对齐增强的多语言微调以及增强特定能力的多语言微调。
直接多语言微调:为了将大模型的能力拓展到多语言,多项研究直接将基础的微调策略扩展到多语言场景。大部分工作关注直接多语言指令微调,旨在让模型遵循多语言指令。其他工作关注直接多语言偏好微调,旨在让模型的回复与多语种形式的人类偏好保持一致。这些工作的主要区别在于多语言微调数据的收集方法。此外,如何在直接多语言微调的过程中有效地激发跨语言迁移,是一个被广泛讨论的研究问题。
图4 多语言大模型微调策略
通过跨语言对齐增强的多语言微调:在直接多语言微调的基础上,许多工作通过跨语言对齐来进一步增强跨语言迁移。这些工作通常使用资源最丰富的英语作为中心语言,将大模型在非英语语言上的理解、推理和生成能力对齐到英语。根据跨语言信号的融入方式,这些工作又可以被分为两类:翻译辅助微调和跨语言微调。这两类工作的区别在于,翻译辅助微调定义翻译相关的辅助任务,并将其与直接多语言微调相结合;跨语言微调将直接多语言微调任务转换成了跨语言形式,以一种更加隐式的方式融入跨语言信号。
增强特定能力的多语言微调:增强模型特定的多语言能力往往涉及到特定的多语言微调技术。例如,大模型的新语言适配主要涉及词表扩张和持续预训练,一些特定的方法还会被提出用于不同目标语言的适配;基于大模型的机器翻译主要依赖于在平行语料上微调,一些其他方法,比如目标语言的持续预训练、翻译偏好微调等被用于进一步增强模型的翻译能力;大模型的多元文化对齐旨在使其适应用户所代表的多元文化,这一方面的研究迫切需要被拓展到多语言场景。
四、多语言大模型评估方法
多语言大型语言模型的评估工作具有至关重要的意义。它不仅是衡量模型性能和能力极限的关键手段,也是确保模型在人类价值观层面的合规性以及有效解决安全问题的重要保障。在多语言交织的复杂环境中,评估的范围应当扩展到多样化的语言种类,以实现对每种语言应用场景下模型性能的精确控制和深入理解。本综述探讨了多语言分词器的评估、多语言评估基准和数据集、多语言特性的评估,以及将多语言大型模型作为多语言评估工具的使用。相应的思维导图请参见图5。从分词器的角度看,支持多语言标记的分词器对于提升MLLM的性能至关重要。目前,分词器的评估包括了fertility和parity作为衡量指标。
图5 多语言大模型的评测
多语言大语言模型的评测和基准数据集主要集中于四个方面:(1)整体多语言评测基准数据集,即收集大规模数据集,并从多个维度对多语言大型语言模型进行全面评估;(2)多语言任务评测,即在多语言环境中,对自然语言处理任务的性能进行评估,以确保模型在不同语言场景下的有效性和适用性;(3)多语言对齐评测,即在多语言背景下,评估大型语言模型是否能够维持道德、无害且无偏见的回答;(4)多语言安全评测,即评估模型在安全方面的表现,确保其不会被恶意利用或越狱过,以维护系统的安全性和稳定性。本文综述还将探讨大型语言模型的多语言特性,以及如何利用多语言大型语言模型作为评估工具,以提高多语言应用的质量和可靠性。
五、多语言大模型的可解释性
图6 多语言大模型可解释性的观点和方法
尽管通过多语言数据训练大模型,并结合多语言指令数据对其进行微调,能够获得性能优异的多语言大模型,但由于训练数据分布的广泛性以及大模型结构的复杂性,理解模型的内部工作机制变得尤为困难。研究多语言大模型的可解释性不仅有助于提升其在实际应用中的可信度和可靠性,还能帮助我们识别模型中潜在的偏差和不公平现象。本综述通过深入分析模型的内部决策过程,揭示其潜在的规律与模式,从而进一步优化模型性能。
综述围绕三个关键问题探讨多语言大模型的可解释性:多语言能力的建模机制、跨语言迁移现象以及语言偏见的成因,具体分析框架如图6所示。
在研究多语言能力建模机制时,现有研究主要从四个层面展开探索:模型层面、部件层面、神经元层面和表征层面。模型层面的可解释性聚焦于整体,分析模型的行为和决策路径,以理解其多语言处理能力的全貌;部件层面的可解释性则关注模型的内部组件,探讨这些组件在多语言环境中的具体功能和作用;神经元层面进一步细化到单个神经元,探索其在多语言任务中的具体贡献;表示层面的可解释性研究模型如何学习多语言表示,揭示不同语言的输入在高维空间中的分布与区分方式。
在建模多语言能力后,多语言大模型通常会表现出跨语言迁移和语言偏见两种现象。该综述还总结了这两种现象的成因。当前研究认为,跨语言迁移现象主要归因于共享子词、参数共享、语言共享的神经元及语言共享的表示空间;而语言偏见则与训练数据分布的不均衡、语言间的空间距离等因素密切相关。
六、多语言大模型的应用
图7 多语言大模型的应用
多语言大模型(MLLM)在特殊领域的应用正迅速崛起。本综述总结了MLLM在以下领域的应用(如图7):
在生物与医学领域,MLLM已被用于药物研发、基因编辑和疾病诊断,显著提升了研究效率和预测准确性。
在法律领域,模型可帮助分析复杂的法律条款,提供智能化的法律咨询服务。
在数学与计算机科学领域,大模型不仅助力于公式推导和理论验证,还为代码生成和自动调试提供了强大的支持。
这些应用展示了MLLM跨越语言与学科边界的能力,不仅解锁了低资源环境下的知识潜力,还推动了多领域的跨学科协作,开启了创新的新篇章。
七、多语言大模型的挑战与未来发展
MLLM的发展势头迅猛,但距离构建真正普惠的语言智能,仍有漫长的征程。正如综述中细致描绘的挑战版图,当前MLLM主要面临四大挑战:低资源语言处理、跨文化理解、安全伦理保障以及效率提升。低资源语言数据匮乏导致 MLLM在这些语言上的表现不尽人意,如同身负重担却跛足前行。同时,语言作为文化的载体,MLLM需要更深入地理解不同文化间的细微差别,才能避免输出带有文化偏见的言论,真正做到尊重和包容文化多样性。此外,与所有强大的 AI 技术一样,MLLM的安全伦理问题不容忽视。如何有效防止模型被滥用、输出有害信息,以及如何消除模型中潜在的偏见,是研究者必须直面的挑战。最后,MLLM庞大的模型规模和高昂的计算成本也限制了其更广泛的应用,如同高悬的科技果实,难以被普罗大众采摘。
为攻克这些挑战,综述讨论了MLLM未来研究的重要方向。首先,改进跨语言迁移学习方法至关重要,需要探索更有效地利用高资源语言知识来提升低资源语言性能的新途径,例如更先进的适配器、元学习和表征学习技术。其次,构建文化感知型MLLM势在必行,这需要将文化知识融入到模型训练的各个环节,并开发相应的评测指标,使MLLM真正理解和尊重不同的文化。此外,增强MLLM的安全性和公平性刻不容缓,不仅要构建更强大的安全防御机制来抵御各种攻击和滥用,还要积极研究如何识别和消除模型中潜在的偏见,确保其输出公平公正。同时,提升MLLM的可解释性也是未来的重要研究方向,通过开发更有效的解释方法,让“黑盒”模型变得更加透明,增强用户对模型的理解和信任。最后,为了让MLLM真正走向普惠,必须持续探索更高效、更可持续的模型发展路径,例如研究轻量级模型架构、高效训练算法以及更环保的部署方案等。
THE END
撰文 | 朱少林
责编 | 彭鉴翔
终审 | 熊德意