聊聊大模型推理系统之 Sarathi

科技 2024-12-24 19:57 广东

SmartFlowAI

点击上方蓝字关注我们

作者：樊奇，上海交通大学硕士生
全文约 1400 字，预计阅读时间 6 分钟

在前两期内容中，我们介绍了 Orca 与 vLLM 这两个大模型推理系统。Orca 解决了任务级调度过于粗粒度的问题，而 vLLM 解决了 KV cache 导致的低效率内存管理问题。众所周知，输入的 prompt 的长度会影响到 prefill 阶段的时间，从而造成较大的 bubble。那么这部分 bubble 要如何优化呢？我们今天就来看一看《Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve》这篇论文所介绍的 Chunked Prefill 技术，源码位于 https://github.com/microsoft/sarathi-serve 。

背景与动机

随着大语言模型（LLM）的广泛应用（如聊天机器人、搜索引擎和代码助手），其推理阶段的计算需求逐渐成为主导 GPU 工作负载的关键挑战。推理阶段需要在高吞吐量与低延迟之间进行权衡，而现有的 LLM 推理系统通常难以兼顾这两个目标。特别是，推理任务的两个阶段：

Prefill 阶段：并行处理输入提示，生成第一个输出标记，具有高延迟但能充分利用 GPU。
Decode 阶段：逐个生成输出标记，延迟较低但计算利用率较低。

为优化这两个阶段的吞吐量与延迟，Sarathi-Serve 引入了一种高效的调度器，通过分块预填充（chunked-prefills）和无停滞调度（stall-free batching）实现了高吞吐量和低延迟的平衡。

Sarathi-Serve 的核心设计

分块预填充（Chunked-Prefills）

机制：将长的输入提示分割成近似相等的计算块，每次仅计算一部分提示的预填充内容。
优势：避免长时间预填充对 Decode 阶段的干扰，同时允许在 Decode 阶段中插入计算。
效果：显著降低每次迭代的延迟，使延迟与提示长度基本无关。

无停滞调度（Stall-Free Scheduling）

机制：将 Decode 阶段与分块预填充的请求合并到同一个批次中，避免暂停当前的 Decode 操作。
优势：通过动态调整批次中的 token 数量，最大限度利用 GPU 计算资源，并保证延迟目标（SLO）。
效果：减少 Decode 阶段的延迟峰值，同时提升系统整体吞吐量。

性能评估

吞吐量与延迟的权衡

测试模型与数据集：在多种模型（如 Mistral-7B、Yi-34B）和数据集（如 openchat_sharegpt4 和 arxiv_summarization）上测试。
结果：与现有系统（如 vLLM 和 Orca）相比，Sarathi-Serve 在严格的延迟目标下实现了最高 6.3 倍的吞吐量提升。

多 GPU 配置中的表现

实验设置：在混合并行（tensor-parallel 和 pipeline-parallel）配置下对 Falcon-180B 模型进行测试。
结果：在低带宽网络环境中，Sarathi-Serve 通过减少流水线气泡（pipeline bubbles）实现了高效的 GPU 利用率，相较于传统的纯张量并行配置，其性能提升超过 3.6 倍。

分块预填充的开销

分析：较小的分块会增加 KV 缓存访问次数，导致 GPU 利用率略有下降。
结论：尽管分块会引入一定的固定开销，但在合理的分块大小（如 2048 tokens）下，其对性能的影响可以忽略不计。

主要贡献

提出两项关键技术：分块预填充与无停滞调度。
显著性能提升：在多种模型和硬件配置下验证了 Sarathi-Serve 的广泛适用性。
开放代码：提供开源实现，促进社区进一步研究与优化。

结论

Sarathi-Serve 有效解决了 LLM 推理阶段吞吐量与延迟之间的权衡问题，为大规模在线服务系统提供了一种高效、可扩展的解决方案。未来的工作可以进一步探索在异构硬件环境下的应用，以及与其他调度策略（如分离预填充与解码）进行深入比较的可能性。

往期 · 推荐

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉