多模态与语言模型扩展:自回归模型提升扩散模型的生成能力;
Scaling Diffusion Language Models via Adaptation from Autoregressive Models
2024-10-23|HKU, UIUC, Apple, Tencent AI Lab|🔺11
http://arxiv.org/abs/2410.17891v1
https://huggingface.co/papers/2410.17891
https://github.com/HKUNLP/DiffuLLaMA
研究背景与意义
在文本生成领域,扩散语言模型(DLMs)作为一种新兴的范式,展现出了超越传统自回归(AR)模型的潜力。然而,当前的DLMs在规模和性能上仍然落后于其自回归对手,尤其是在语言建模基准测试中缺乏公平的比较。这一挑战促使研究者们探索如何有效地将现有的开源自回归语言模型适应为文本扩散模型。
本文的研究目标在于通过适应自回归模型,提升扩散模型的生成能力,从而推动文本生成技术的发展。
研究方法与创新
本研究提出了一种简单的适应方法,旨在解决自回归模型和扩散模型在语言建模目标上的根本差异。具体而言,研究者通过注意力掩蔽的退火过程,逐步消除自回归模型中的因果掩蔽偏差。此外,研究还引入了平移操作,以便在训练过程中保持输入序列的对齐。这种方法有效地将自回归模型的优势与扩散模型的潜力结合起来,形成了一种新的训练框架。
在实验中,研究者通过对比不同规模的自回归模型(如GPT-2和LLaMA)与其适应后的扩散模型(DiffuGPT和DiffuLLaMA),展示了这一适应方法在语言建模、推理和代码生成等任务上的优越性能。通过系统的评估,研究者们证明了适应后的扩散模型在生成流畅文本、进行上下文学习和填充任务上都具备了竞争力。
实验设计与结果分析
研究者采用了系统的评估方法,涵盖了零-shot、few-shot和微调场景,以全面比较自回归模型与扩散模型的性能。实验结果表明,适应后的扩散模型在多个基准测试中表现出色。例如,DiffuGPT在大多数任务中超越了GPT-2,而DiffuLLaMA则在复杂的推理和代码生成任务中展现了强大的能力。此外,研究者还发布了适应后的扩散模型及其相关的开源代码和评估工具,进一步推动了该领域的研究。
结论与展望
本文的研究为扩散语言模型的适应与扩展提供了新的思路,证明了通过自回归模型的适应,扩散模型能够在多个文本生成任务中取得显著的性能提升。然而,研究也指出了当前模型的局限性,尤其是在知识保留和复杂推理能力方面。未来的工作将集中在进一步优化扩散模型的训练过程,并探索指令调优方法,以提升其在特定任务中的表现。