大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

科技 2024-11-02 15:00 北京

中科大博士冯源投稿
量子位 | 公众号 QbitAI

改进KV缓存压缩，大模型推理显存瓶颈迎来新突破——

中科大研究团队提出Ada-KV，通过自适应预算分配算法来优化KV缓存的驱逐过程，以提高推理效率。

打破KV Cache压缩将所有注意力头分配相同压缩预算的常规做法，针对不同的注意力头进行适配性压缩预算分配

展开来说，由于大模型在自回归生成过程中，每生成一个新token都需要将对应的KV矩阵存储下来，这导致缓存随着生成序列长度的增加而急剧膨胀，引发内存和I/O延迟问题，尤其在长序列推理中尤为突出。

因此，KV缓存压缩成为了一项必要的优化。

不过令人头秃的是，现有压缩方法往往在各个注意力头之间平均分配预算，未能考虑其特性差异。

而中科大团队在注意到——不同注意力头关注度存在差异后，对其进行适配性压缩预算分配，通过精细化运作带来更高的压缩质量。

相关研究不仅在学术界引起讨论，更实现了工业界开源落地。

例如，Cloudflare workers AI团队进一步将其改进落地于工业部署常用的vLLM框架中，并发布技术报告，开源全部代码。

KV缓存压缩从均匀性预算分配→适配性预算分配

一开始，Ada-KV团队首先思考：

注意力头间的适配性压缩预算分配是必要的吗？

通过从经验性和理论性两个角度进行分析后，团队的回答是：yes!

经验性分析

Ada-KV团队发现，在大模型中注意力头之间存在着显著不同的关注集中度差异：

大部分注意力头关注度集中在少量KV cache上，只需很少的KV cache（例如，1%）就可以几乎收集接近0.9的注意力权重；
而少数注意力头则倾向于分散注意力，往往需要接近50%的KV Cache才能够将注意力权重聚集到0.9。

考虑到如此巨大的关注度集中度的差异，注意力头间的适配性压缩预算分配对于压缩质量的提升有着巨大潜力。

理论性分析

Ada-KV研究团队进一步从压缩输出损失的角度出发，形式化了在不同分配策略下KV Cache压缩对注意力输出的损失影响：

他们基于这一理论提出了一种以注意力权重为基础的自适应分配方案，并发现这种跨注意力头的预算分配策略始终能够降低损失上界。

此外，这一理论上的更低损失上界在实际实验中也展现出更低的注意力输出损失：

理论与实际结果一致验证了这一结论：注意力头间的适配性预算分配能够显著提升KV缓存压缩的效果。

通过适配性头间预算分配增强KV Cache压缩质量

作者将Ada-KV这一适配性预算分配策略结合到现有的两个领先的Cache压缩方案：SnapKV和PyramidKV中，分别得到两种适配性压缩方案：Ada-SnapKV和Ada-Pyramid。

他们进一步在广泛使用的长序列开源大模型Mistral-7B-Instruct-32K和LWM-Text-Chat-1M和长文本任务评估基准LongBench上的16个数据集上进行了充分的评估。

实验结果显示，所有适配性预算分配增强的压缩方法（Ada-SnapKV和Ada-Pyramid）全部优于原有的均匀预算分配压缩方法（SnapKV和Pyramid）。

Ada-KV团队在算法实现的同时，也考虑到了执行效率的优化。

他们开发了一种展平的KV Cache管理布局，并定制了CUDA kernel，以实现高效的Cache更新管理。

结合Flash Attention技术，该方案在适应性预算分配的情况下，实现了高效推理，并在相同预算下保持了与先前Cache压缩方案一致的计算效率。

目前，代码已在GitHub上完全开源，助力推动注意力头间适应性压缩预算分配的研究。

Cloudflare推动Ada-KV于工业界部署落地

Cloudflare公司旗下的Workers AI团队针对实际并发服务场景中存在的内存碎片问题，基于Paged Attention重新实现了Ada-KV算法，并将其落地于实际部署使用的推理框架vLLM中。

他们发布了技术报告，对该方案进行了详细评估，同时开源了相关代码，助力Ada-KV在工业界的快速应用和落地。

如果你对后续进展感兴趣，欢迎持续关注~

Ada-KV Paper：
https://arxiv.org/abs/2407.11550
Ada-KV Code：
https://github.com/FFY0/AdaKV
Cloudflare Technical Report：
https://arxiv.org/abs/2410.00161
Cloudflare Code：
https://github.com/IsaacRe/vllm-kvcompress

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247756193&idx=5&sn=936d993fe3fa6fdfe0362d31ea0f398c

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

中科大博士冯源 投稿量子位 | 公众号 QbitAI

KV缓存压缩从均匀性预算分配→适配性预算分配

经验性分析

理论性分析

通过适配性头间预算分配增强KV Cache压缩质量

Cloudflare推动Ada-KV于工业界部署落地

中科大博士冯源投稿
量子位 | 公众号 QbitAI