掌握Transformer之KV Cahce

文摘科技 2024-09-22 13:29 江苏

点击蓝字

关注我们

引言

ChatGPT等平台的成功在很大程度上归功于许多研究人员和工程师为提高大型语言模型（LLM）推理速度所做的努力。用户需要实时的人工智能交互--模仿自然对话的快速反应。

ChatGPT采用的是Transformer结构中的Decoder部分，该结构在推理阶段采用KV Cache技术来加速推理已经有一段时间了，但也许大家需要了解它到底是什么，以及该技术所带来的巨大推理速度的提升。

闲话少说，我们直接开始吧！

基于点积的注意力

如下图所示，Key和Value在Transformer中主要用于计算基于点积的注意力得分。

基于点积的注意力在Transformer中的应用

这里需要注意的一点为：

KV Cache发生在多个Token生成的步骤中，并且只发生在解码器中（即在 GPT等仅解码器模型中，或在 T5 等编码器-解码器模型的解码器部分）。BERT 等模型不是生成式模型，因此没有 KV 缓存。

解码器以自回归方式工作，如以下 GPT-2 文本生成示例所示。

在解码器的自回归生成过程中，给定输入后，模型会预测下一个标记，然后在下一步中综合输入和上一步输出进行下一步的预测。

这种自回归行为会重复一些计算，我们可以通过放大解码器中基于掩码点积注意力的计算过程来更好的理解这一点。

解码器中基于点积注意力计算的逐步可视化

KV-Cache的引入

由于解码器是具有因果关系的（即一个Token的注意力只取决于其前面的Token），因此在每一次的生成中，我们都要重新计算前面相同Token的注意力，而实际上我们只想计算新Token的注意力。

这就是KV-Cache发挥作用的地方。通过缓存之前的Key和Value，我们可以只计算新Token的Attention。

有 KV Cache和无 KV Cache的点积注意力对比

为什么这一优化非常重要？如上图所示，使用 KV Cache获得的矩阵更小，从而加快了矩阵乘法的速度。唯一的缺点是需要更多的 GPU VRAM（或 CPU RAM，如果不使用 GPU）来缓存Key和Value。

性能对比

让我们使用Transformer来比较有 KV Cache和无 KV Cache的 GPT-2 的推理速度。

import numpy as npimport timeimport torchfrom transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" if torch.cuda.is_available() else "cpu"tokenizer = AutoTokenizer.from_pretrained("gpt2")model = AutoModelForCausalLM.from_pretrained("gpt2").to(device)
for use_cache in (True, False):  times = []  for _ in range(10):  # measuring 10 generations    start = time.time()    model.generate(**tokenizer("What is KV caching?", return_tensors="pt").to(device), use_cache=use_cache, max_new_tokens=1000)    times.append(time.time() - start)  print(f"{'with' if use_cache else 'without'}\n KV caching: {round(np.mean(times), 3)} +- {round(np.std(times), 3)} seconds")

在使用 Tesla T4 GPU 的谷歌 Colab 笔记本上，报告了生成 1000 个新Token的平均耗时：

with KV caching: 11.885 +- 0.272 seconds without KV caching: 56.197 +- 1.855 seconds

推理速度的差异非常大，而 GPU VRAM 的使用量却可以忽略不计，正如以下链接所报告的那样。

网址：https://discuss.huggingface.co/t/generate-using-k-v-cache-is-faster-but-no-difference-to-memory-usage/31272

因此请确保在Transformer Decoder模型变种中使用 KV 缓存！

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

http://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247491919&idx=1&sn=79c90ec621dc8870a39c2083a21bb518

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

Fine-Tuning vs. Zero-Shot vs. Few-Shot Learning

RAG Fusion -- 新一代信息检索技术

【Python】关于Python Itertools 后悔没有早点了解的九个函数

【Python】都2024了，还不会用dataclass，你Out了？

自回归模型的关键：Causal self-Attention

机器学习中的Teacher Forcing

一文弄懂Bert模型

【Python】七个提升Python代码性能的技巧

一文学会LLM参数量计算

Transformer为什么使用LayerNorm而不是BatchNorm?

BatchNorm VS LayerNorm

掌握LLaMA: 深入探索MetaAI的革命性模型

一文弄懂Grouped-Query Attention

一文弄懂Multi-Query Attention

手撕Transformer之组合各组件

手撕Transformer之The Decoder

手撕Transformer之The Encoder

手撕Transformer之Layer Normalization

手撕Transformer之Feed-Forward Network

手撕Transformer之Multi-Head Attention

一文弄懂Flash-Attention

手撕Transformer之Positional Encoding

手撕Transformer之Embedding Layer

掌握Transformer之KV Cahce

NLP领域中BeluScore直观解释

掌握Transformer之注意力为什么有效

掌握Transformer之深入多头注意力机制

掌握Transformer之学习各组件

掌握Transformer之概述

十分钟深入理解BatchNorm层

NLP领域中Beam Search直观解释

【Python】一文弄懂Python中的@wraps

BatchNorm层直观性解释

手把手教你打造虚拟AI Talker

【Python】关于F-Strings的六种高级用法

ReLU如何让神经网络逼近连续非线性函数?

Luma推出 Dream Machine 1.5 - 新的人工智能视频生成器

RAG检索增强生成最佳实践

万字长文讲解文本嵌入及其高阶应用

我后悔没有早点知道 Python中迭代的八个技巧

【Python】五种方法实现两个变量数值交换

一文弄懂RAG检索增强生成技术

强烈推荐10个人工智能小项目

一文弄懂Python在Windows/Mac/Linux上路径兼容问题

推荐免费访问最强AI绘画FLUX.1的五种方式

推荐提升时序数据可视化展示的三个技巧

如何优雅地在Python中管理环境变量？

超越Midjourney最强AI绘画FLUX.1发布

什么是Python中的requirements.txt文件？

通用NLP入门技术介绍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉