图解KV Cache：加速大模型推理的幕后功臣

科技 2024-10-14 15:34 日本

在开始之前，给大家出几个“高频面试题”，看看你能答上来吗？

1. 举例说明 KV Cache 的计算过程

2.为什么要用 KV Cache？它能解决什么问题，代价又是什么？

3. vLLM 里 KV Cache 形影不离的搭档是谁？

还记得之前那篇大语言模型推理，用动画一看就懂！的文章吗？是的！我们再次用动画来演示大语言模型的推理过程！几乎所有的大语言模型（LLM）都基于 Transformer 架构，它依赖于之前生成的 token 来预测下一个字符。而自注意力机制（self-attention）则是模型推理的核心：它不仅需要当前 token，还要每次“回顾”之前的所有 token。

动画演示 KV Cache

为了更加形象理解上面提到的自注意力机制的“回顾机制”，下面我画了一张图。它是大语言模型推理，用动画一看就懂！中那个文本生成步骤的第四步，其中计算 self-attention 时所需的 Key 和 Value 的示意图。

注意：Prompt 是 "The future of AI is" 有五个 token，第一步推理时模型输入的是整个 prompt，会计算出每个 prompt token 对应的 key 值和 value 值，为了清晰起见图里仅用 K1 和 V1 来代表它们。

接下来的动画演示了每一步计算自注意力的过程，清晰起见去掉了其他算子。

从图里看到每一步计算时，当前的 Qi 都需要和之前的 Kj 进行矩阵乘法计算，然后再和之前的 Vj 进行矩阵乘法。那么为了节省算力，我们可以把之前的 Kj、Vj 的结果“缓存”起来，这样每次只需要做增量计算。这个缓存机制就是 KV Cache ，简单却非常有效！来看看加上 KV Cache，推理过程变得多轻松吧！

从上面的动画可以看到除了第一步，其他步骤都可以通过缓存复用之前步骤产生的 Ki 和 Vi。这些步骤在计算 self attention 时只有一个 query，因此叫做 single query attention。

KV Cache 有多大？

一条文本所需的 KV Cache 计算公式如下：

KV Cache Bytes = 2 * 2 * Sequence Length *   Number of Layers * Hidden Size

举个实际的例子，Qwen2 7B 这个国产大模型，在 4 K 序列长度下，KV Cache 大小是 1.6 GB！这是什么概念呢？要知道很多人的显卡也就 8GB 或者 16GB。

KV Cache 的代价

KV Cache 虽然能节省计算，但是显存开销也很显著，随着模型变大(Hidden Size 和 Layer Num 会增大）、序列长度变长，占用的显存迅速膨胀。

假设你实现 KV Cache 时，每次都是预留了一个超大的仓库来存放它，但每次只用了一小部分，这会导致资源浪费，你服务不了太多用户，而且容易出现“撑爆”显存（OOM）的现象。因为你的用户，他们每次推理时的文本长度是变化的！

那么如何解决这些问题呢？vLLM 提出的 PagedAttention 就是聪明地按需分配空间，像是“分隔储物柜”，需要多少就分配多少，避免浪费。

在下一篇文章中，我将继续用动画的方式，深入拆解 KV Cache 的好基友 PagedAttention 的工作原理，带你从源码层面剖析 vLLM 如何用这一技术解决显存瓶颈。敬请期待！

参考资料：

Transformers KV Caching Explained

游凯超(vLLM 核心开发者)知乎上的《一文读懂 KV Cache》

EFFICIENTLY SCALING TRANSFORMER INFERENCE

http://mp.weixin.qq.com/s?__biz=MzA4MjY4NTk0NQ==&mid=2247525044&idx=1&sn=69cf637eb8eb524d417f3c9c6662b043

GiantPandaCV

专注于大语言模型，CUDA，编译器，工程部署和优化等多个方向技术分享。我们不仅坚持原创，也规范转载知乎大佬们的高质量博文。希望在传播知识、分享知识的同时能够启发你，在人类通往AGI的道路上互相帮助(･ω\x26lt;)☆

最新文章

OpenAI o1 技术初探2：使用MCTS增强推理能力（基于代码实践的解读）

【ml-engineering 翻译系列】AI系统中的网络概述

【ml-engineering 翻译系列】大模型推理

【翻译】使用PyTorch FSDP和Torch.compile最大化训练吞吐量

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

OpenAI o1 技术初探1：整体框架，利用Test-Time Scaling Law提升逻辑推理能力

【翻译】使用PyTorch FSDP最大化训练吞吐量

图文详解 Continuous Batch：不写 CUDA Kernel 也能成倍优化推理效率

CUDA-MODE 课程笔记第14课，Triton 实践指南

【翻译】CUDA-Free Inference for LLMs

揭秘 PagedAttention（上）：如何管理 Paged KV Cache

图解KV Cache：加速大模型推理的幕后功臣

Flex Attention API 应用 Notebook 代码速览

将GLM-4-Plus大模型应用到Cursor中

大语言模型推理，用动画一看就懂！

【翻译】【PyTorch 奇技淫巧】FlexAttetion 基于Triton打造灵活度拉满的Attention

【翻译】torch.compile 的详细示例解析教程

CUDA-MODE 课程笔记第13课：Ring Attention

大模型直接预测下一个句子，更快、更准、更长！

【PyTorch 奇技淫巧】介绍 depyf：轻松掌握 torch.compile

一文读懂 ONNX、TensorRT、OpenVINO部署框架

【翻译】CUTLASS 教程：掌握 NVIDIA® 张量内存加速器 (TMA)

一文读懂KVCache

【翻译】深入探讨 Hopper TMA 单元在 FP8 GEMM 运算中的应用（文末送3本大模型书）

人人都能看懂的DPO数学原理

一文讲清 NCCL 集合通信原理与优化

基于o1-preview解读 Optimized GPTQ INT4 Dequantization Triton Kernel

【翻译】在 GPU 上如何加速 GPTQ Triton 反量化kernel

加速矩阵计算：英伟达TensorCore架构演进与原理最全解析

CUDA-MODE课程笔记第12课，Flash Attention

使用Nsight Profiling工具对大模型进行性能调优

【PyTorch 奇淫技巧】Async Checkpoint Save

Stable Video Diffusion 结构浅析与论文速览

vLLM源码之模型并行

CUDA-MODE课程笔记第11课: Sparsity

FID 指标简介与修正 TorchEval FID 计算接口经历分享

【翻译】教程：CUTLASS中的矩阵转置 (使用CuTe把矩阵转置优化到GPU内存带宽上下限)

vLLM源码之框架执行

【翻译】教程：在PyTorch中为CUDA库绑定Python接口

在白嫖的阿里云ECS上手动部署Dify运行大模型应用

NVidia GPU指令集架构-浮点运算

GLM-4-Flash官方API免费了，体验一下

【PyTorch 奇淫技巧】Python Custom Operators翻译

LLM101N：用C++实现micrograd，手把手从零教你

LLM训练手法系列：直接偏好优化DPO

【翻译】Accelerating Llama3 FP8 Inference with Triton Kernels

[Hopper 架构特性学习笔记 Part2] Tensor Memory Access（TMA）

CUDA-MODE课程笔记第9课: 归约（也对应PMPP的第10章）

TensorRT-LLM初探（三）最佳部署实践

通过微基准测试和指令级分析(Instruction-level Analysis)揭秘英伟达Ampere架构

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉