LLM 进 KV 缓存的量化

文摘 2024-06-19 22:44 新加坡

一、推理需要的内存

推理需要的内存主要有三部分：加载模型、激活和KV-cache

量化通过降低大型语言模型 (LLM) 的参数精度（例如从 16 位到 4 位）来减小其大小。

然而，量化模型只会减少模型参数的内存消耗。虽然可以在较小的 GPU 上加载 LLM，但推理过程仍然需要额外的内存来主要存储：

激活，即在前向传递过程中创建的张量
KV缓存

正常情况下，推理中的激活由于是一层层串行传递，因此通常现存占用不是很大。

KV-Cache方面，随着上下文变长和模型变深，KV 缓存的大小会迅速增长。对于处理长上下文如 RAG 系统来说，情况更为突出。

二、Transformer 模型的 KV 缓存是什么

在 Transformer 模型中，文本生成是逐个标记进行的，其中每个新预测都取决于所有先前生成的标记的上下文。

这种顺序依赖性会使过程变慢，因为预测下一个 token 需要重新处理迄今为止生成的整个序列。例如，要预测第 100 个 token，模型需要整合前 99 个 token 的信息，这涉及对它们的表示进行复杂的矩阵乘法。预测第 101 个 token 需要再次对前 99 个 token 执行相同的计算，再加上对第 100 个 token 执行的额外计算。

键值 (KV) 缓存通过存储这些计算的结果来优化此过程，允许模型将它们重新用于后续标记而无需重新计算。这意味着，为了生成第 101 个标记，不必重新计算前 99 个标记的信息，而是可以从 KV 缓存中检索它们，然后只计算第 100 个标记的缺失信息。

具体来说，KV 缓存存储了从先前处理的 token 的自注意力层派生的键值对。在 Transformer 架构中，自注意力层通过将查询与键相乘并产生值向量的加权和作为输出来生成注意力分数。通过将这些键和值存储在缓存中，模型可以有效地检索它们以加快生成过程。

在推理过程中利用 KV 缓存现在已成为标准做法。生成的序列越长，加速效果就越显著。然而，这也意味着 KV 缓存正在增长。必须将所有这些张量存储在 GPU 上，以便快速检索和利用它们。对于深度模型、长序列和大批量，KV 很容易占用数十 GB 的 GPU RAM。

二、估算 KV 缓存的内存消耗

KV 缓存通常以 16 位存储张量，使用 float16 或 bfloat16 数据类型。

对于一个 token，KV 缓存会为每一层和注意力头存储一对张量（键值对）。这些张量的大小由注意力头的维度决定。这对张量的总内存消耗（以字节为单位）为：

number of layers * number of KV attention heads * dimension of the attention head * (bit width / 8) * 2

公式中：

hidden dimension是隐藏层的维度。
dimension of the attention head= hidden dimension/number of attention heads.
最后一个“2”是因为有两个张量，即键和值。位宽大多数情况下为 16。由于 8 位为 1 字节，将位宽除以 8，这样 KV 缓存中每个 16 位参数就有 2 个字节。

如果我采用 Llama 3 8B，则该等式变为：

32 * 8 * 128 * 2 * 2 = 131,072

注意：Llama 3 8B 有 32 个注意力头。但是，得益于分组查询注意力 (GQA) ，只有 8 个注意力头用于键和值。

一个 token 的 KV 缓存占用 131,072 字节，即 0.1 MB。它看起来很小，但对于许多不同类型的应用程序来说，LLM 需要生成数千个 token。例如，如果想利用 Llama 3 8B 的完整上下文大小（即 8192），KV 缓存将存储 8191 个 token 的 KV 张量。这是 1.1 GB。对于具有 24 GB RAM 的消费级 GPU，KV 缓存将占用其总内存的 4.5%。

对于较大的模型，KV 缓存增长得更快。例如，对于具有 80 层的 Llama 3 70B，公式变为：

80 * 8 * 128 * 2 * 2 = 327,680

对于 8191 个令牌，Llama 3 70B 的 KV 缓存将占用 2.7 GB。

还要注意，这是一个seq的内存消耗。如果进行批量解码，必须将此值乘以批量大小。

例如，使用 Llama 3 8B 的批处理大小 32 需要 35.2 GB 的 GPU RAM。这无法通过一个消费级 GPU 实现。

三、Llama 3 的 KV 缓存量化

量化会降低参数的精度，例如从 16 位降低到 4 位。这意味着 16 位张量的总大小可以除以 4，或者使用 2 位量化除以 8。

如果拿上面最后一个例子来说明内存消耗，理论上 4 位量化可以将 KV 缓存的大小从 35.2 GB 减少到 8.8 GB，2 位量化可以减少到 4.4 GB。但实际操作中，量化算法的效果并不好。内存消耗的减少取决于量化方法及其超参数，尤其是组大小。

使用HQQ 量化，可以预期 4 位量化的内存消耗将减少 3 倍至 2 倍。使用块量化等更简单的方法，可以预期减少接近 3 倍。

Hugging Face Transformers 支持 KV 缓存量化。

目前，支持它的版本不能直接通过 pip 使用。必须从源代码安装 Transformers：

pip install git+https://github.com/huggingface/transformers

它支持 HQQ 量化和 Quanto（块式）。HQQ 比 Quanto 更准确，但效率不如 Quanto。据 Hugging Face 报告，HQQ 也比 Quanto 慢得多：

如果应用程序不太关心解码速度，建议使用 HQQ。否则，请使用 Quanto。

如果想使用 HQQ，请运行：

pip install HQQ

pip install quanto==0.1.0

Hugging Face 目前建议使用 0.1.0 版本。

下面是用来量化Llama 3 8B Instruct的KV缓存的代码，使用bnb动态量化。

import torchfrom transformers import AutoTokenizer, AutoModelForCausalLM, set_seed, BitsAndBytesConfig
set_seed(1234)  # For reproducibility
prompt = "The best tomato sauce is"
model_id = "meta-llama/Meta-Llama-3-8B-Instruct"
bnb_config = BitsAndBytesConfig(        load_in_4bit=True,        bnb_4bit_quant_type="nf4",        bnb_4bit_compute_dtype=torch.float16,        bnb_4bit_use_double_quant=True,)
tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config, attn_implementation="flash_attention_2", torch_dtype=torch.float16, device_map="cuda:0")
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)outputs = model.generate(**inputs, max_new_tokens=150, cache_implementation="quantized", cache_config={"backend": "HQQ", "nbits": 4, "q_group_size": 128, "residual_length": 64, "device":model.device})result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

其中outputs 部分为介绍KV缓存量化的部分。cache_implementation表示在推理过程中会量化KV缓存。cache_config表示量化用到的所有超参数：

1. `backend`

描述：选择量化算法的类型。
选项：

HQQ：适用于对精度要求较高的场景，但推理吞吐量较低。
Quanto：适用于对推理速度要求较高的场景，但精度可能会有所损失。

建议：如果更关注模型的精度，选择 HQQ；如果更关注推理速度，选择 Quanto。

2. `nbits`

描述：量化的精度，即每个参数使用的位数。
选项：

4：表示4位量化。这是一个常见的选择，可以显著减少内存消耗，同时保持较好的模型精度。
2：表示2位量化。尽管可以进一步减少内存消耗，但可能会严重降低模型的准确性。

建议：一般情况下选择 4 位量化。只有在内存极其紧张的情况下才考虑使用 2 位量化。

3. `q_group_size`

描述：量化时的组大小，决定了每组参数的量化粒度。
默认值： 128
调整：

减小值：可以提高量化的精度，但内存消耗的减少效果会降低。
增大值：可以提高内存节省效果，但可能会降低量化精度。

建议：通常保持默认值 128。只有在需要更高精度时才考虑减小该值。

4. `residual_length`

描述：表示有多少个令牌的KV缓存不进行量化。这对于保持模型的准确性至关重要。
默认值： 64
调整：

增大值：可以提高模型的准确性，但会增加内存消耗。
减小值：可以减少内存消耗，但可能会降低模型的准确性。

建议：设置为 64 是一个较好的平衡。如果模型的准确性不够，可以尝试增大该值；如果内存消耗仍然过高，可以尝试减小该值。

5. `device`

描述：指定KV缓存量化运行的设备，通常应该与模型加载的设备相同。
建议：明确设置为与模型加载设备一致。例如，如果模型加载在GPU上（如 cuda:0），那么 device 应该也设置为 cuda:0。如果未设置，默认情况下量化可能会在CPU上进行，这可能会导致性能问题。

如果所有这些超参数都设置正确，则使用和不使用 KV 缓存量化生成的输出不会有太大差异。

至于内存消耗的差异，只有在处理大批量和非常长的序列时才会注意到显著的差异（同时处理来自多个用户的查询时，批处理可以让GPU并行处理，从而提高效率）。

KV 缓存量化是进一步减少 LLM 推理内存消耗的另一种方法。它可以将 KV 缓存的大小减少 2 倍或 3 倍，具体取决于后端和量化超参数，从而可能节省数十GB。

然而，这种量化并非没有缺点。它会降低解码速度，并可能显著降低 LLM 的准确性。通过调整量化超参数可以提高速度和准确性。

参考：https://kaitchup.substack.com/p/kv-cache-quantization-for-memory

http://mp.weixin.qq.com/s?__biz=MzAwMDc2NjQ4Nw==&mid=2663560741&idx=1&sn=b694c187dcef24bdf7a8ae7854dbe19a

大魏分享

https://github.com/davidsajare/david-share.git

最新文章

LLM推理性能测试与优化工具

OpenAI o1：变革与启示

侦探与艺术家: ViT vs CNN

深挖分布式训练

图解AI训练

千问Vision模型的验证

从零训练一个Vision Transformer

一文搞懂大语言模型的发展历程和未来应用场景！

如何微调模型的coding能力？

LLM产生幻觉的原因以及缓解的方法

新书发布：大语言模型原理、训练及应用

Chunk的五种方法

高效预训练框架: Nanotron

微调Base model还是Instruct Model？

预训练中代码语料的作用

Phi-3.5 MoE微调

A100 MIG上进行Stable Difussion测试

LLM的视频、文本和图片过滤

PTQ量化哪家强？

如何为预训练创建高质量的数据集

一句话说清预训练和微调的本质区别

HuggingFace推出小模型SmolLM

Llama-3.1 70B在两卡A100上微调

使用合成指令对 LLM 进行预训练

困惑度的正确用法

多LoRA适配器的原理、方法、实现及优势

Llama3.1-8B微调

图生图-Stable Diffusion在H100上的测试

LLM中EOS的作用

H100学习笔记#July, 2024 github开源文章与代码

Phi-3微调与量化

拓展模型的Function call能力

LLama3.1之我见

Ph3 rag的实现

GPU怎么选？微调与推理

视觉模型小钢炮：Florence-2

重量选手：FlashAttention-3

推理圈的沙皇核弹？

graphrag来啦！

如何用NVIDIA GPU运行分布式训练

Florence-2的威力

解密推理训练中的内存消耗：本周github开源代码#Week1 July, 2024

很有意思的phi3量化后的四个尝试

本周github开源代码#Week4 June, 2024

端侧视觉模型推理的考量：Phi3-Vision

我在微软AI Day上做的分享

开源一个AI知识的repo: david-share

详解视觉Transformers

继续预训练(CPT)的本质与代码实现

LLM 进 KV 缓存的量化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

LLM 进 KV 缓存的量化

二、Transformer 模型的 KV 缓存是什么

在 Transformer 模型中，文本生成是逐个标记进行的，其中每个新预测都取决于所有先前生成的标记的上下文。

二、估算 KV 缓存的内存消耗

KV 缓存通常以 16 位存储张量，使用 float16 或 bfloat16 数据类型。

三、Llama 3 的 KV 缓存量化

量化会降低参数的精度，例如从 16 位降低到 4 位。这意味着 16 位张量的总大小可以除以 4，或者使用 2 位量化除以 8。

1. backend

2. nbits

3. q_group_size

4. residual_length

5. device

KV 缓存量化是进一步减少 LLM 推理内存消耗的另一种方法。它可以将 KV 缓存的大小减少 2 倍或 3 倍，具体取决于后端和量化超参数，从而可能节省数十GB。

1. `backend`

2. `nbits`

3. `q_group_size`

4. `residual_length`

5. `device`