RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

文摘科技 2024-07-11 21:22 上海

文｜庞德公

编辑｜郭嘉

------>更多内容，请移步“鲁班秘笈”！！<------

开源项目RWKV是一个“具有 GPT 级别LLM性能的RNN，也可以像transformer并行训练。它主要是解决了Transformer的高成本。注意力机制是 Transformer 霸权背后的驱动力之一，它导致Transformers “遭受内存和计算复杂性的影响，复杂性与序列长度呈二次方比例缩放”，限制可扩展性。

另一方面，在前面讲述Mamba<链接回去温习下RNN的历史>的时候，读者应该已经知道原始的RNN在训练和并行化受到很大的约束。当然之后的很多改进，包括线性化都是为了解决这些问题。而RWKV最早2023年提出来的架构，RWKV5-6则在2024年4月份更新。其实它是可以和Transformer和Mamba掰掰手腕的，宛如小家碧玉，温文尔雅。

RWKV

RWKV的灵感来自 Apple 的Attention Free Transformer。该架构已经过精心简化和优化，因此可以将其转换为RNN。此外，还添加了一些技巧，例如TokenShift以及SmallInitEmb以提高其性能。

将RWKV和Transformers进行正面比较，在训练时降低资源使用率（VRAM、CPU、GPU等）。与具有大上下文大小的转换器相比，计算强度降低10到100倍。答案质量和能力方面表现同样出色。

在RWKV的弱点也同样的明显，它对提示格式敏感。在需要回溯的任务中较弱，（例如，“对于上面的文档，请做X”，这将需要回溯。但是可以说，“对于下面的文档，请执行 X”）。

RWKV的命名来自它内部四个关键部分：Receptance（接收信息的灵敏度）、Weight（权重调节）、Key（关键信息的精准把握）、Value（信息价值的深度挖掘）。这使得它在处理语言时既能够深入理解每个词汇的上下文，又能够快速捕捉全局信息。

Receptance：接受向量充当过去信息的接收者。
Weight：权重表示位置权重衰减向量，这是模型中的一个可训练参数。
Key：键向量在传统注意力机制中扮演着类似于K的角色。
Value：价值向量在传统注意力过程中的功能与V相似。

RWKV 如何实现 RNN 的现代化

RWKV将完整的RNN网络分割成多个较小的层，“其中每一层的隐藏状态可以独立用于计算同一层的下一个令牌隐藏状态。这允许部分并行计算下一个令牌状态，同时等待第一个隐藏状态的完全计算，以级联模式的形式。

实际上，这使得RNN网络在并排推出时可以像Transformer网络一样运行，在那里它可以“像Transformer一样”进行训练，也可以“像RNN一样执行”。来源于Apple的Attention Free Transformer的Time-mix层，采用了一种创新的注意力归一化技术。这一技术巧妙地解决了传统Transformer模型中计算资源的浪费问题，使得模型在处理信息时更加精准和高效。

时间混合是一个非常强大的想法，与具有固定窗口的Transformer不同，这在理论上可以扩展到无穷大。值得一提的是时间混合方程是线性的。这意味着可以并行化这种计算，从而扩展到更大的规模。

循环网络通常利用状态 t 的输出作为状态 t+1 的输入。在语言模型的自回归解码推理中也观察到了这种用法，其中必须先计算每个令牌，然后才能传递到下一步。RWKV利用了这种类似 RNN 的结构，称为时间顺序模式。在这种情况下，RWKV可以方便地递归地表述，以便在推理过程中进行解码。这种递归的特性使RWKV可以充当各种桥梁。

“这些设计元素不仅增强了深度神经网络的训练动态，而且还促进了多层的堆叠，通过在不同的抽象级别上捕获复杂的模式，从而实现优于传统RNN模型的性能”

上图中的Channel-mix层与GeLU（Gated Linear Unit）<链接回去温习>层有着异曲同工之妙，它引入了门控机制来调节信息流。这种机制类似于智能阀门，根据需要开启或关闭特定的信息通道，从而优化模型的表达能力。

RWKV模型采用了一种新颖的位置编码方式（distance encoding），它不仅为模型输入中加入了每个位置的信息，还考虑了位置之间的距离衰减特性。什么是衰减，有点类似往湖水中丢一颗石子，一圈一圈的涟漪就是。下面是根据RWKV块绘制的矩阵维度关系图谱：

大多数采用的RWKV模型范围从~170M参数到14B参数。纯语言模型RWKV-4已经在 Pile数据集上进行了训练，并在不同的基准上与其他SoTA模型进行了评估，它们似乎表现得相当不错，结果与它们非常相似。

下集剧透

RWKV v5-v6

2024年的Eagle (RWKV-5)和Finch (RWKV-6)，是在RWKV(RWKV-4) (Peng et al., 2023) 架构基础上改进的序列模型。架构设计改进包括多头矩阵值状态和动态递归机制，它们保持 RNN 推理效率特性的同时提高了表达能力。

在这个过程中引入了一个包含 1.12万亿个Token的新多语言语料库和一个基于贪婪匹配的快速标记器以增强多语言性。同时我们训练了四个Eagle 模型，参数范围从0.46B到7.5B，以及两个Finch模型，参数范围从1.6B和3.1B，这些模型在各种基准测试中都实现了具有竞争力的性能。目前都可以在HuggingFace上面找到对应的模型。

下面为它和Mamba 1, Mamba 2<链接温习>的对比，内存占用率低，而且时间短（Finch蓝线）。

其中把RWKV块运用于视觉领域，证明了VisualRWKV的架构对于视觉理解和推理非常强大。

使用较小的视觉编码器CLIP-L(0.4B）和1.5B/3B的Eagle，它所实现的结果可与CLIP-G（1.0B）和CLIP-H（1.0B）与 7B/13B大LLM的组合相媲美。在某些基准测试中，它甚至优于较大的模型。

鲁班号导读火热上线!!

------>敬请移步“鲁班秘笈”！<------

http://mp.weixin.qq.com/s?__biz=MzkzNDM4MDQyMg==&mid=2247486528&idx=1&sn=a1d53404bfae19870b3158ff6b042fb4

鲁班模锤

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链以及数据空间的最新技术。着力于数据治理自动化，依托语料库构建数据可信流通方案，为所有企业提供平等的数据增益服务。

最新文章

神经网络与2024诺贝尔物理奖

利用语料来透析（“哲学思考”） “数字孪生” 上

WordLlama：在消费级GPU上奔跑的“瘦子”

AI新思考：“浴火重生”的草莓模型

Apple发布iPhone16和Apple Intelligence

突发：Runway删库跑路，备受瞩目的Stable Diffusion v1.5不见了！

优雅谈大模型：白话ZeRO 下

Jamba前生今世：1.5开源来袭

AI架构系列：去其形而留其意

ViT篇外：NVIDIA Llama-3.1-Minitron 4B

FlashAttention3：再次深度挖掘硬件潜力

Grok 2携AI图片生成重生

TorchChat：Ollama的潜在对手

优雅谈大模型：Python编程篇

AIGC中数据治理的“科林格里奇困境”

泡沫还是机遇？复盘18个月的AI装备竞赛

三个臭皮匠与一个诸葛亮：覆盖率与正确率的博弈

NiFi ：1 初识这把“十年一剑”的利器

Flux：Midjourney的新图像模型挑战者

Apple在Swift中引入同态加密

Meta再下一城：SAM 2

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

新版PyTorch：AI任务加速与Intel GPU集成

优雅谈大模型：白话ZeRO 上

Llama 3.1和xAI的超集群加速AI军备竞赛

LLama3.1 405B即将来袭：开源首次超越GPT-4o

优雅谈大模型：“System2”与“System 1”

本周当之无愧：小模型周

百万专家小专家：“N个小皮匠”？！

SpreadsheetLLM：微软对Excel编码的“摊膀伏”

LLM基础模型系列：Prefix-Tuning

FlashAttention3：“苗条”的就是比较好！

数据跨境法案：美国篇下

MobileLLM：“苗条”的模型比较好！

白话无人驾驶：2 运动规划

白话无人驾驶：1风暴来袭

优雅谈大模型：白话向量数据库

RWKV: 与Transformer和Mamba掰掰手腕的小家碧玉

LLM基础模型系列：Prompt-Tuning

LLM基础模型系列：Fine-Tuning总览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉