专题解读 | 利用投机采样加速大模型推理

科技 2025-01-20 16:08 山东

专题解读：利用投机采样加速大模型推理

简介

在大模型的应用场景中，推理速度是最为影响用户体验的要素之一。针对大模型推理速度的优化有很多工作，本文将聚焦于投机采样技术。

目前的大模型通常采用自回归的方式生成文本，即每次前向传播只输出一个单词，这是限制其推理速度的重要因素。投机采样通过引入一个参数较小的模型生成多个候选词(drafting)，然后利用标准模型对候选词进行批量验证，从而减少重复计算，大幅提升推理效率。

如上图所示，每次迭代小模型都会生成一个文本序列，经过大模型验证后，绿色文本被接受，红色和蓝色的文本则被拒绝。这样每次迭代可以生成多个单词，推理速度大幅提升。此外，相比于模型压缩技术，投机采样不会损失模型的生成质量。本文将介绍两篇投机采样的经典工作，它们分别代表了两种不同的技术思路。

SpecInfer: Accelerating large language model serving with tree-based speculative inference and verification (ASPLOS24)

在更早的投机采样工作中，小模型只产生一个候选词序列供大模型进行验证。由于小模型在参数量上的劣势，候选词通常不会被全部接受，因此候选词的接受率成为了影响投机采样算法性能的重要因素。本文提出了一种优化算法，可以利用小模型生成多个候选序列，然后利用Tree Decoding进行快速验证，通过生成更多的候选词来提升增加每次可能被接受的序列长度。这种方法随后受到了广泛应用。

Drafting

SpecInfer希望在Drafting得到多个候选序列，对此有两种思路：采用多个小模型生成多个序列；或者使用单个模型，在每次生成最后的Decoding阶段留下多个单词，从而产生分支，这种方法的根据在于通常被大模型接受的token都在top-k列表里。最后得到的序列合并后会是一个树形结构，树中的每个节点代表一个token，节点的父节点即为其在序列上的前一个token。

Tree Decoding

如果要用大模型对多个序列都进行验证，会产生大量的计算开销，这样很难带来推理速度提升，为此SpecInfer提出了Tree Decoding方法，可以一次对多个序列同时进行验证。

如下图，对于drafting生成的token tree，Tree Decoding将各个节点按照拓扑序展平为一个序列，然后为其生成一个特殊的Causal Mask。在这个Mask中，每个token与它祖先节点的格子上填1（如t9-t8)，其余则填0（如t9-t4）。这样在Attention计算时，每个token只与它的祖先节点，也就是在序列上更早出现的单词进行计算。通过这种方式，Tree Decoding可以将多个分支序列合并到一次计算中完成，大幅提升了验证效率。

实验效果

SpecInfer相比其他的分布式推理框架有较大的速度提升，其中，Tree Decoding相比普通的投机采样算法有大概1.2-1.5倍的速度提升。

如下图所示，通过引入更多的分支序列（增大Token tree width），投机采样过程中的平均序列接受长度普遍得到了提升。而序列接受长度直接影响了投机采样的效率，这说明了该方法的有效性。

Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

理论上，SpecInfer及其类似工作的候选词接受率决定了它们的加速效果，然而实际效果却达不到这个程度，原因在于小模型本身的计算开销是无法被忽视的。Medusa则采用了一种更简单有效的方式，利用模型的隐藏层输出直接进行生成。

模型框架

Medusa的投机采样过程与SpecInfer类似，首先生成多个候选序列，然后用Tree Decoding进行合并验证。Medusa的核心模块是生成候选词的Medusa Head，这个模块直接使用大模型的最后一个隐藏层输出作为输入，经过一个FFN生成候选词。其中第k个head会直接生成候选序列的第k个单词。序列中第一个单词直接由大模型生成，因此可以保证每个过程会输出一个单词。

Medusa从每个head中选择top-k作为候选，将每个head的候选词按顺序组合可以得到候选序列。然后Medusa采用Tree Decoding对不同序列进行合并验证。验证所有组合会带来很大的开销。为此Medusa预先构建了如下所示的模版树，在生成token tree时可以只选择部分组合。这棵树由启发式方法生成，由于概率越大的节点产生的分支被接受的概率越大，这棵树在结构上整体左偏，因此排序更高的token会产生更多序列。

在训练时，Mesuda Head由一个交叉熵损失训练：

或者与原始模型一起训练(Medusa-2)：

实验效果

本文在Vicuna-7B/13B模型上进行了实验，Medusa可以带来2倍的推理加速效果，而几乎不损失模型生成质量。而采用了联合训练的Medusa-2能带来更强的加速效果，因为更好的Head能提升候选词的命中率。

总结

本文主要介绍了两项投机采样方向的重要研究。SpecInfer提出的Tree Decoding能提升候选词的命中率，而Medusa采用了高效的方法生成候选词。总的来说，投机采样利用了某些单词能够更容易预测的特性加速推理，如何在提升候选词质量的同时保证生成过程的高效性，是当前投机采样研究的关键问题。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

线性扩散模型LiT来了，用极简线性注意力助力扩散模型AIPC时代端侧部署

arXiv每日学术速递2025.2.3

立春 | 对抗混沌的纠错之战：从生命秩序到量子计算

进击的DeepSeek，一夜之间登陆Microsoft Azure、Cursor、Amazon Bedrock

arXiv每日学术速递2025.1.31

中文对联/十二生肖/城市景点/旅游计划……年味超浓的数据集汇总

Unitree H1：我今年一岁半，成为央视蛇年春晚整场最靓“显眼包”

arXiv每日学术速递2025.1.30

原来，这些顶级大模型都是蒸馏的

arXiv每日学术速递2025.1.29

小乐数学科普：挂谷猜想专题系列——新证明穿针引线到一个粘性几何问题上——译自Quanta Magazine量子杂志

滚烫Deepseek一夜刀掉英伟达4万亿，除夕开源多模态新模型：7B超越DALL-E 3和StableDiffusion

arXiv每日学术速递2025.1.28

人形机器人魔性舞蹈，仅需这项核心技术？

创造历史！DeepSeek超越ChatGPT登顶中美AppStore

【Efficient AIGC】SiTo_ Similarity-based Token Pruning (AAAI-2025)

论文一起读 | 用于实时大尺度变形的高斯泼溅

为避免“帽子化”，杰青优青自2025年起改名！

抓住「AI+生物医药」黄金时期，盘点2024年最值得关注的颠覆性成果

ICLR 2025｜4K分辨率拿下！超强杀器SANA：线性扩散模型+文生图+高分辨率+从头训练的极佳范本！

奥特曼晒「星际之门」首期工厂，全美狂建20座超算！70万块GPU老黄爆赚375亿

arXiv每日学术速递2025.1.24

登上央视！七腾机器人斩获“2024新质生产力年度案例”桂冠！全新防爆四足机器人X3 stable重磅亮相！

最壕DeepSeek玩家8台Mac跑R1，10万+元凑496GB显存才能跑4bit量化版

arXiv每日学术速递2025.1.23

阶跃星辰再拿多模态榜首，全方位升级发布六款模型

强强联合：CNN与Transformer融合创新提升模型性能！！

端到端新SOTA！GPVL：3D视觉语言预训练的生成式规划新框架！

MatterGen：基于生成式AI的材料设计新范式

特朗普一上台，拜登AI禁令被秒撤！硅谷科技「壕客」齐聚就职典礼现场

南开大学郑伟教授：AlphaFold并不完美，学术界尚有「弯道超车」的机会

SGLang的Expert Parallel特性解读

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

arXiv每日学术速递2025.1.20

感知任务全面涨点！LargeAD：自动驾驶超强预训练来了（新加坡国立）

专题解读 | 利用投机采样加速大模型推理

宇树机器人上演弯道超车(ren)，歪果仁质疑是特效

小寒 | 提取随机：从算法基础到理论前沿

小乐数学科普：Tony Phillips教授的数学读报评论2024-11

ICML 2025投稿将破万？！卷疯了

arXiv每日学术速递2025.1.17

如何利用文本提示高效生成高质量、个性化的长视频？

CNN+LSTM+Attention多热点搭配！又是创新性拉满的高分思路！！

arXiv每日学术速递2025.1.16

大步迈向VLA！港中文GPT4Scene：从视频中理解3D场景~

AAAI 2025 | 基于信息瓶颈准则的联邦图数据压缩

小红书一夜冲爆美区榜首，1.7亿TikTok「难民」疯狂涌入！

arXiv每日学术速递2025.1.15

助力诊断362种常见疾病！剑桥/牛津/华威大学等提出多Agent大语言模型框架，自动化构建医疗知识图谱

AAAI收了一篇论文：没算法没实验，全靠idea思路好...

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉