自回归模型是一种典型的序列生成模型,其生成过程必须按照严格顺序进行,根据先前生成的内容不断来预测下一个词。这种方式虽然在许多任务中表现良好,但由于每一步生成都依赖前面的结果,因此容易累积误差,且生成过程必须是严格的顺序,限制了生成的灵活性。
与此相对,离散扩散模型则采用了一种与自回归不同的生成范式,从一个完全随机的噪声开始,逐步去噪以生成目标文本 [1]。其优势在于能够并行生成,并且在理论上具有更快的采样速度。
但现有的离散扩散模型在生成质量上仍然无法与自回归模型媲美,因为其通常将去噪的联合分布参数化为独立的逐个标记分布,这忽视了序列级别的关联性,从而导致了严重的解码错误累积,并阻止用户使用少量去噪时间进行快速采样。
图丨离散去噪扩散模型的正向与反向过程(来源:arXiv)
因此,如何改善误差积累问题,进一步提高模型性能,对于离散扩散模型的进一步发展具有重要意义。
针对这一问题,斯坦福大学与英伟达的联合团队于近期提出了提出了一种名为基于能量的扩散语言模型(Energy-based Diffusion Language Model, EDLM)的新方法。
相关论文以《基于能量的文本生成扩散语言模型》(Energy-Based Diffusion Language Models for Text Generation)为题发表在预印本网站 arXiv 上 [2]。
斯坦福大学计算机科学系徐民凯博士是第一作者兼通讯作者。
图丨相关论文(来源:arXiv)
如前所述,在现有的离散扩散模型中,生成过程是通过从完全被掩码的序列开始,然后逐步去噪来生成完整的文本。然而,这种去噪的联合分布通常被简化为各个标记的独立分布,这种方式忽视了整个序列中标记之间的复杂依赖关系,使得在去噪过程中容易产生累积误差,从而降低生成的质量和模型的准确性。
研究团队给出的解决方案是——在扩散过程引入基于能量的模型(Energy-Based Model,EBM)建模整个序列的去噪分布,更好地捕捉序列中的标记之间的关联性。
而这主要归功于能量模型的灵活性和有效性。这种来源于统计物理学的模型可以通过定义一个能量函数,将低能量与高概率对应(反之亦然),根据能量的相对值便可有效地捕捉序列内的复杂关联性,而无需依赖标准化的概率分布。
在训练过程中,能量模型的目标是最小化损失函数,使得与数据相符的能量值低,而与数据不符的能量值高。这种方式使得模型能够专注于优化能量函数,自然地反映出标记之间的依赖关系,而不必在概率框架内进行复杂建模。
但是,训练基于能量的模型时,对于配分函数的处理一直以来都是一个难题,通常使用的办法是通过马尔可夫链蒙特卡洛(MCMC)的采样方法来近似参与函数,但在处理高维数据时,这种方法计算起来非常困难。
图丨一个模型使用能量函数 E(Y,X) 来测量观测变量 X 与待预测变量 Y 之间的兼容性。例如,X 可以是图像的像素,Y 是描述图像中物体的离散标签。在给定 X 的情况下,模型生成的答案 Y 能使能量 E 最小化 [3]。(来源:Predicting structured data)
课题组主要采用了两种主要方法来获取能量函数的参数。
其一是利用预训练的自回归模型,即将预训练的自回归语言模型作为能量函数来评估每个去噪步骤中序列的可能性,这种方式无需重新训练,能够有效利用已有的语言模型知识。
其二是通过双向 Transformer 进行噪声对比估计微调,通过引入一个额外的能量函数,并利用噪声对比估计方法对其进行微调,以更好地捕捉序列中的标记间依赖关系。这种设计允许 EDLM 在保持生成灵活性的同时,减少解码错误。
此外,研究人员还通过引入一种高效的并行采样算法来加速生成过程。
在传统的扩散模型中,由于去噪步骤的独立性,通常需要大量的采样步骤来确保生成的文本质量,这使得生成过程非常耗时。
而 EDLM 使用一种称为自正则化的重要性采样的方法来解决这一问题。在每一个去噪步骤中,EDLM 会并行采样多个可能的候选序列状态,并使用能量函数计算这些候选序列的“能量值”,然后基于这些能量值选择最优的候选。
这种方法不仅能够减少生成所需的采样步骤,还能够提高采样效率,从而让整个生成过程比传统的扩散模型更快。
为了验证 EDLM 的有效性,团队在 Text8、OpenWebText 等多个语言建模基准数据集上进行了实验。
结果显示,在生成困惑度(Perplexity)这一衡量生成质量的指标上,EDLM 不仅优于现有的扩散模型,并接近甚至达到自回归模型的水平。
此外,在保持生成性能的情况下,EDLM 的采样速度比传统扩散模型提升了约 1.3 倍,这进一步验证了其有效性。
图丨 EDLM 的分析和消融研究(来源:arXiv)
总结来说,这种模型成功地将能量模型与扩散模型结合,通过有效的去噪和并行采样技术,实现了更好的生成质量和采样效率。未来,这种将能量模型引入扩散生成的新方法有望进一步推动并行生成技术的发展。