斯坦福团队联合英伟达提出基于能量的扩散语言模型，将困惑度表现提升至自回归模型水平

科技 2024-11-04 18:36 北京

自回归模型是一种典型的序列生成模型，其生成过程必须按照严格顺序进行，根据先前生成的内容不断来预测下一个词。这种方式虽然在许多任务中表现良好，但由于每一步生成都依赖前面的结果，因此容易累积误差，且生成过程必须是严格的顺序，限制了生成的灵活性。

与此相对，离散扩散模型则采用了一种与自回归不同的生成范式，从一个完全随机的噪声开始，逐步去噪以生成目标文本 [1]。其优势在于能够并行生成，并且在理论上具有更快的采样速度。

但现有的离散扩散模型在生成质量上仍然无法与自回归模型媲美，因为其通常将去噪的联合分布参数化为独立的逐个标记分布，这忽视了序列级别的关联性，从而导致了严重的解码错误累积，并阻止用户使用少量去噪时间进行快速采样。

图丨离散去噪扩散模型的正向与反向过程（来源：arXiv）

因此，如何改善误差积累问题，进一步提高模型性能，对于离散扩散模型的进一步发展具有重要意义。

针对这一问题，斯坦福大学与英伟达的联合团队于近期提出了提出了一种名为基于能量的扩散语言模型（Energy-based Diffusion Language Model, EDLM）的新方法。

相关论文以《基于能量的文本生成扩散语言模型》（Energy-Based Diffusion Language Models for Text Generation）为题发表在预印本网站 arXiv 上 [2]。

斯坦福大学计算机科学系徐民凯博士是第一作者兼通讯作者。

图丨相关论文（来源：arXiv）

如前所述，在现有的离散扩散模型中，生成过程是通过从完全被掩码的序列开始，然后逐步去噪来生成完整的文本。然而，这种去噪的联合分布通常被简化为各个标记的独立分布，这种方式忽视了整个序列中标记之间的复杂依赖关系，使得在去噪过程中容易产生累积误差，从而降低生成的质量和模型的准确性。

研究团队给出的解决方案是——在扩散过程引入基于能量的模型（Energy-Based Model，EBM）建模整个序列的去噪分布，更好地捕捉序列中的标记之间的关联性。

而这主要归功于能量模型的灵活性和有效性。这种来源于统计物理学的模型可以通过定义一个能量函数，将低能量与高概率对应（反之亦然），根据能量的相对值便可有效地捕捉序列内的复杂关联性，而无需依赖标准化的概率分布。

在训练过程中，能量模型的目标是最小化损失函数，使得与数据相符的能量值低，而与数据不符的能量值高。这种方式使得模型能够专注于优化能量函数，自然地反映出标记之间的依赖关系，而不必在概率框架内进行复杂建模。

但是，训练基于能量的模型时，对于配分函数的处理一直以来都是一个难题，通常使用的办法是通过马尔可夫链蒙特卡洛（MCMC）的采样方法来近似参与函数，但在处理高维数据时，这种方法计算起来非常困难。

图丨一个模型使用能量函数 E(Y,X) 来测量观测变量 X 与待预测变量 Y 之间的兼容性。例如，X 可以是图像的像素，Y 是描述图像中物体的离散标签。在给定 X 的情况下，模型生成的答案 Y 能使能量 E 最小化 [3]。（来源：Predicting structured data）

课题组主要采用了两种主要方法来获取能量函数的参数。

其一是利用预训练的自回归模型，即将预训练的自回归语言模型作为能量函数来评估每个去噪步骤中序列的可能性，这种方式无需重新训练，能够有效利用已有的语言模型知识。

其二是通过双向 Transformer 进行噪声对比估计微调，通过引入一个额外的能量函数，并利用噪声对比估计方法对其进行微调，以更好地捕捉序列中的标记间依赖关系。这种设计允许 EDLM 在保持生成灵活性的同时，减少解码错误。

此外，研究人员还通过引入一种高效的并行采样算法来加速生成过程。

在传统的扩散模型中，由于去噪步骤的独立性，通常需要大量的采样步骤来确保生成的文本质量，这使得生成过程非常耗时。

而 EDLM 使用一种称为自正则化的重要性采样的方法来解决这一问题。在每一个去噪步骤中，EDLM 会并行采样多个可能的候选序列状态，并使用能量函数计算这些候选序列的“能量值”，然后基于这些能量值选择最优的候选。

这种方法不仅能够减少生成所需的采样步骤，还能够提高采样效率，从而让整个生成过程比传统的扩散模型更快。

为了验证 EDLM 的有效性，团队在 Text8、OpenWebText 等多个语言建模基准数据集上进行了实验。

结果显示，在生成困惑度（Perplexity）这一衡量生成质量的指标上，EDLM 不仅优于现有的扩散模型，并接近甚至达到自回归模型的水平。

此外，在保持生成性能的情况下，EDLM 的采样速度比传统扩散模型提升了约 1.3 倍，这进一步验证了其有效性。

图丨 EDLM 的分析和消融研究（来源：arXiv）

总结来说，这种模型成功地将能量模型与扩散模型结合，通过有效的去噪和并行采样技术，实现了更好的生成质量和采样效率。未来，这种将能量模型引入扩散生成的新方法有望进一步推动并行生成技术的发展。

参考资料：

1. https://arxiv.org/abs/2107.03006

2. https://arxiv.org/abs/2410.21357

3.https://www.researchgate.net/profile/Marcaurelio-Ranzato/publication/216792742_A_Tutorial_on_Energy-Based_Learning/links/0912f50c6862425435000000/A-Tutorial-on-Energy-Based-Learning.pdf

运营/排版：何晨龙

http://mp.weixin.qq.com/s?__biz=MzA3NTIyODUzNA==&mid=2649759322&idx=1&sn=bdf0d27de7906934b604278cd1419421

DeepTech深科技

DeepTech 是一家专注新兴科技的资源赋能与服务机构，以科学、技术、人才为核心，通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块，推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。

澳洲昆大团队研发新型聚合物吸附剂，短时间内实现超99%氟化污染物去除

蛋白质设计再突破！麻省理工团队利用人工智能与梯度优化开发新策略

在家就能查血：MIT开发微型硅光芯片血液检测系统

科学家研发“仿心脏”电极材料，促进离子流传输，解决钠离子电池离子传输动力学缓慢问题

亚马逊向Anthropic追投40亿美元，Anthropic将使用前者芯片训练AI模型

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

诺奖得主联合创办，初创融资3000万美元，开发新型糖免疫疗法

打破传统蛋白质进化方法局限性：MIT团队设计新型蛋白质大模型，发现比自然界高效百倍的突变体

寻找定义未来的科技先锋丨2024年度“35岁以下科技创新35人”中国报名中

被迫剥离Chrome和安卓？谷歌或将迎来“至暗时刻”

初创公司Teleo完成千万美元融资，欲打造机器人行业“ChatGPT时刻”

艾伦研究所与华盛顿大学团队推出开源科研大模型OpenScholar，用小参数超越GPT-4o

北大校友发现新型神经元，能通过靶向激活快速抑制食欲，或促进司美格鲁肽类药物新发展

背靠英伟达的初创公司Enfabrica推出全球最快GPU网络接口控制器芯片，再获1.15亿美元融资

英国核聚变初创公司完成1.25亿美元融资，致力于开发新型反应堆

运动即药物：MIT揭示神经修复新机制

科学家提出“一锅法微流体制造”系统，制备多种复杂陶瓷微粒，能作为微机电系统的精密零件

成立仅半年，印度首家核聚变公司获种子前投资

北航团队提出全新偏好数据构建框架，助力大模型实现更全面的对齐效果

药物研发新突破！中国科大、哈佛等联合开发PocketGen模型，可高效生成蛋白质口袋

AI和量子：谁将主宰未来计算？

内部短路起火时间不到3秒，王朝阳院士团队揭示全固态金属锂电池安全隐患

斯坦福团队发现新型代谢化合物，可抑制食欲、减轻体重

科学家以树蛙皮肤为灵感研制大气水收集装置，每平方米产能超过60升/天，有望满足工业级用水需求

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

哈工大团队开发高灵敏度检测设备，可同时实现多种疾病诊断

科学家从小行星挖掘出外太阳系的起源密码

人类首次月球原位资源利用测试项目定档，美国企业计划明年执行首次任务

孙学良院士团队开发双阴离子基钠超离子导体，打破传统固态电解质局限，为开发高性能全固态钠离子电池开辟新途径

这家公司打造1.25万电池充电站，可在地震或台风时提供备用发电

MIT绘制迄今为止最全面大脑皮层功能图

1人完全缓解，斯坦福团队利用CAR-T治疗胶质瘤，突破实体肿瘤限制

结合有机半导体薄膜与细菌人工光合作用，科学家制备人工生物叶片，具备自支撑与能量自给特性

清华校友研发分子编辑工具，为药物分子和材料分子的合成提供新策略

微软联手NASA开发“地球Copilot”，让浩瀚太空数据触手可及

AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

生成式AI或在5年内产生数百万吨电子垃圾？科学家提出算力物质流方法，为AI可持续发展提供新视角

四成AI数据中心或陷入“用电荒”，全球能源格局面临重大挑战

首个机械量子比特问世，量子计算迎来“蒸汽朋克”时代

MIT科学家开发新模型能让疫苗更有效

科学家用AI打造离子电路，将成为电子电路的有力补充，可被用于人机交互领域

专访澳大姜颖：开发“BIND通用接口”技术，让柔性生物电子器件实现模块化组合，正联合企业落地转化

超越硅极限：纳米3D晶体管或成AI低功耗未来之钥

科学家提出基于大语言模型的智能体系统框架，促进对不同框架的统一理解

Cursor母公司Anysphere收购Supermaven，计划打造完全整合的AI开发平台

科学家开发新型点击化学反应，突破二硫键高效合成技术瓶颈，正探索将其用于骨修复和脊髓修复

用“飞轮效应”开启智能科学时代新篇章，火山引擎AI for Science研讨会与Bio-OS大赛圆满收官

CFS公司获美国能源部250万美元资助，即将公布首座核聚变发电站选址

天津大学开发类器官-脑机接口技术，为脑损伤修复带来新希望

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉