1.29-3|时间混合模块代替自注意力，RWKV-7注意力，注意力蒸馏；参数 vs FLOPs，MOE模型的最优稀疏度缩放定律

文摘 2025-01-29 21:56 河南

语言模型与注意力机制：时间混合模块代替自注意力，RWKV-7注意力机制，注意力蒸馏；参数 vs FLOPs，MOE模型的最优稀疏度缩放定律

ARWKV: Pretrain is not what we need, an RNN-Attention-Based Language Model Born from Transformer

2025-01-26｜🔺14

http://arxiv.org/abs/2501.15570v1
https://huggingface.co/papers/2501.15570
https://github.com/yynil/RWKVInside

研究背景与意义

在当前的自然语言处理领域，线性递归神经网络（LRNNs）逐渐崭露头角，尤其是RWKV等模型展现出与传统Transformer架构相媲美的竞争力。然而，这些新兴模型在上下文学习和长上下文检索方面，仍然面临着子二次注意力的固有限制。RWKV-7架构的出现，为解决这些问题提供了新的思路，其通过时间混合模块（time-mixing module）替代自注意力机制，展现出更强的状态追踪能力。尽管Qwen 2.5模型需要巨大的计算资源进行训练，本文通过精炼知识蒸馏方法，成功缩短了训练时间，使得在单个GPU上也能实现高效的模型训练。这一研究不仅填补了现有模型在效率和表达能力上的空白，也为后续的基础模型构建提供了宝贵的实践经验。

研究方法与创新

本研究提出了一系列基于RWKV-7注意力机制的新模型，通过将Transformer的注意力模式转化为RNN基础的注意力机制，展示了其在表达能力上的提升。具体而言，研究分为三个阶段：

时间混合模块替代自注意力：在这一阶段，通过对比学生模型和教师模型的隐藏状态输出，调整参数以实现更高效的学习。研究表明，初始化状态注意力并非必要，反而会影响收敛速度。
知识蒸馏：采用基于单词的KL散度，优化了从32B模型到7B模型的蒸馏过程，实现了快速收敛。通过平衡数据集分布，进一步提升了模型的性能。
监督微调与用户偏好优化：在这一阶段，通过引入用户偏好来优化模型的输出，显著提高了模型在上下文长度扩展方面的表现。

这些创新点不仅有效地提升了模型的表达能力，还为未来的研究提供了新的视角，尤其是在多模态架构和模型压缩领域。

实验设计与结果分析

研究团队进行了多轮消融实验，以评估不同训练因素对最终模型性能的影响。实验结果显示，尽管模型使用bfloat16进行训练，但在推理时采用float16显著提升了性能。此外，知识蒸馏过程中未使用门控机制和冻结MLP的模型表现不佳，表明在不同规模模型间直接转移注意力机制可能存在架构不匹配的问题。通过对比不同模型在多个基准测试上的表现，研究发现ARWKV-7B模型在多个任务上取得了优异的成绩，显示出其在实际应用中的潜力。

结论与展望

本文的研究表明，结合注意力对齐与知识蒸馏的方法，可以有效地将Transformer的注意力模式转化为RNN基础的注意力机制，增强了模型的表达能力。未来的研究将集中在实现Stage 3的后训练，以复制深度推理能力，并探索该方法在不同计算范式中的适用性，包括混合专家框架和多模态架构等。这一扩展旨在验证所提出方法的稳健性和可迁移性，为更广泛的应用场景提供支持。

Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models

2025-01-21｜Apple, MIT|🔺6

http://arxiv.org/abs/2501.12370v2
https://huggingface.co/papers/2501.12370

研究背景与意义

在现代语言模型的研究中，模型容量的扩展一直被视为提升性能和解锁新能力的有效途径。模型容量主要由两个维度定义：模型参数数量和每个示例的计算量（FLOPs）。尽管通常的扩展方法是同时增加这两个维度，但它们之间的精确关系及其对整体容量的贡献尚未完全理解。本研究聚焦于稀疏Mixture-of-Experts（MoEs）模型，通过允许在不成比例增加每个示例的FLOPs的情况下扩展参数数量，探索稀疏性水平对模型性能的影响。

研究的目标是揭示在不同约束条件下（如参数大小和总训练计算量）存在的最佳稀疏性水平，从而提高训练效率和模型性能。这一发现为理解稀疏性在MoEs扩展法则中的作用提供了新的视角，并为设计更高效的架构提供了理论支持。

研究方法与创新

本研究采用了大规模的实证研究方法，以探讨在固定训练计算预算下，MoEs中参数数量与FLOPs之间的最佳权衡。研究团队定义了稀疏性为非活动专家数量与总专家数量的比率，并通过定量和定性分析，推导出在给定训练FLOPs和参数总数的情况下，最佳稀疏性水平。

稀疏性定义与影响：

研究中稀疏性被定义为非活动专家与总专家的比率，通过调整活动专家的数量来控制这一比率。
在预训练阶段，增加模型的容量（即增加参数数量）比单纯增加每个示例的FLOPs更能提升性能。

实验设计：

通过对不同稀疏性、模型大小和计算预算下的损失和下游指标进行评估，研究团队构建了一个三维的IsoFLOP表面，分析稀疏性、参数数量和损失之间的关系。

结果分析：

发现随着稀疏性水平的增加，模型的预训练损失单调下降，表明在相同的计算预算下，稀疏模型能够实现更好的预训练性能。
进一步的分析表明，对于固定的模型大小，最佳稀疏性水平随着模型规模的增加而增加，趋近于1。

理论基础：

研究提出了一种新的参数化形式的扩展法则，考虑了稀疏性对模型性能的影响，提供了一个更全面的框架来理解MoEs的扩展行为。

实验设计与结果分析

本研究的实验设计旨在探讨稀疏性对模型性能的影响，特别是在下游任务中的表现。通过对不同稀疏性水平的模型进行评估，发现下游任务的性能与预训练损失之间存在强相关性。

实验结果：

在语言理解和常识推理等任务中，稀疏模型的性能与预训练损失的关联性较强，表明预训练阶段的表现能够较好地预测下游任务的表现。
然而，在阅读理解任务中，稀疏模型的迁移性能较差，可能是由于其在推理时的计算量较低。

统计显著性：

通过对比不同稀疏性模型的下游任务表现，统计分析显示在某些任务上，稠密模型的表现优于稀疏模型，尤其是在需要更多推理的任务上。

结论与展望

本研究的贡献在于揭示了在固定训练计算预算下，稀疏性与模型参数之间的最佳权衡，强调了稀疏性在优化模型性能中的重要性。研究表明，增加参数数量而不显著增加每个示例的计算量，有助于提高模型的训练效率和性能。

未来的研究将集中在如何平衡FLOPs与参数数量，以最小化推理成本，并探索不同架构间稀疏性的应用。
进一步的实证研究将帮助验证这些发现，并为MoEs的设计提供更深入的理论支持。

AI研究前瞻

欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南！我们致力于为您提供最新、最前沿的AI研究论文解读和分析，并以通俗易懂的方式呈现其核心思想和潜在影响。一起探索AI的无限可能,共同见证人工智能改变世界的每一步!

1.29-2|通用的无模型强化学习，MR.Q，状态-动作嵌入学习

1.29-3|时间混合模块代替自注意力，RWKV-7注意力，注意力蒸馏；参数 vs FLOPs，MOE模型的最优稀疏度缩放定律

1.29-4|iFormer，结合CNN和ViTs轻量化特征提取网络；VLMs视觉偏见，人类与模型感知对齐；免引导的视觉生成推理

1.29-5|issue测试基准，大模型代码编辑效率，测试时间效率

1.28-1|高挑战性人类水平的多模态测试基准；链式检索增强生成，迭代检索链；MLLM基准冗余，基准设计；LLM批判能力封闭基准

1.28-2|可重光照和可驱动的全身头像；遥感图像像素级感知；提高VLLM三维感知理解能力；基于长视频的VTON

1.28-3|一体化自适应图像恢复框架，去噪，去模糊和去雨；去噪作为适应的图像恢复框架

1.28-4|医疗记录问答，隐私保护，语义检索

1.28-5|强化学习+Transform，上下文中进行强化学习，通用问题求解器

1.25-1|多智能体长距离路径规划，共享递归记忆

1.25-2|高效注意力差异化QKV键值压缩；过程与结果二元反馈的推理奖励模型

1.25-3|人类反馈偏好对齐的视频生成；时间偏好优化，提升时间理解能力；多模态视频理解；个人身份保留的个性化视频生成

1.25-4|COT用于图像生成；文生图超全面评估；角色一致的图片生成

1.25-5|评估VLLM从视频中获取知识的能力；扩散模型进行视频物体对象移除

1.25-6|药物发现与幻觉：幻觉提高了LLM药物发现能力，SMILES字符串

1.24-1|DeepSeek-R1技术报告，使用强化学习进行自我演进；Kimi k1.5技术报告；长度协调微调，长推理链优化

1.24-2|多模态与图像视频理解：VideoLLaMA 3

1.24-3|虚拟3D空间端到端的影视自动化，多智能体框架；自动化对话性能评估框架，多智能体进行模型性能评估

1.24-4|测试时偏好优化，通过文本反馈调整模型输出；推理时候选答案选择，成对奖励模型

1.24-5|MOE模型自主路由选择，自动专家模型

1.23-1|通过反思轨迹修正来合成训练数据进行自训练；GUI智能体框架；手机智能体框架，持续学习；环境交互学习智能体

1.23-2|多概念个性化图片生成；扩散模型进行高质量3D资产合成；长视频单目深度估计一致性；T2V通过结构化噪声控制运动

1.23-3|MOE模型训练，全局Batch的负载均衡损失；专家级多学科视频理解基准；多模态奖励模型

1.23-4|o系列推理语言模型蓝图，快速原型设计与开发

1.22-1|生成式游戏引擎，场景泛化，动作可控性，Minecraft数据集

1.22-2|知识学习与视频生成：从未标注视频中学习围棋与机器人控制，LDM模型学习

1.22-3|版权保护与水印技术：融合LORA层的白盒水印，版权保护

1.21-1|进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

1.21-2|2D交互式卡通角色，文本生成live2D；人像图片动画化，提升背景动态细节；文本驱动的4D可编辑头像

1.21-3|阿拉伯语MLLM医疗能力研究，跨语言模型能力迁移

1.21-4|高保真语音超分统一框架，GAN与Transformer-CNN生成器结合；复杂功能调用评估基准

1.18-1|扩展推理时间提升性能，噪声搜索；扩展与反思写作框架，提高内容深度；大模型强化推理综述

1.18-2|基于Transformer的视觉Tokenizer；高保真的3D资产，模型与纹理生成；多主体个性化T2I

1.18-3|提高医疗问询信息获取质量，医患互动策略；无污染的多语言代码评估基准

1.18-4|高效频域动作Tokenization，减少连续动作相关性；基于反思模拟的强化学习，高层级价值观对齐

1.18-5|扩散模型进行重打光；T2V物理规律学习和理解能力研究，通过视频学习物理规律

1.17-1|多模态文档检索，文档布局分析；MLLM做艺术美学系统评估；通用符号音乐生成框架

1.17-2|无边界4D城市场景生成；视频生成跨层信息整合，提高时间，空间一致性；无调参的长视频生成，跨帧注意力主体对齐

1.17-3|参数倒置图像金字塔网络，多层信息交互的视觉感知；跨模态匹配；统一视觉信息匹配框架

1.17-4|开放数据集的最佳实践；隐私推断，可信模型隐私环境

1.17-5|多模态传感，异质对齐，机器人操作

1.16-1|MiniMax-01，4M超长上下文，性能达到先进水平，开源多模态大模型，Lightning 注意力

1.16-2|对抗性扩散后训练，单步视频生成；视频区域级理解，潜在区域标记；开放数据训练高性能文生图；SVD进行图片交互式编辑

1.16-3|文生图填充token分析；简单高效的多实例生成；大模型表示和生成概念，特征解释，可解释性分析

1.16-4|高效卡通线稿上色；使用大模型进行单细胞分析，RNA序列理解；LLM扑克游戏推理与策略评测基准

1.16-5|幻觉检测基准，幻觉错误分类与自动验证

1.15-1|数学推理过程奖励数据合成方法；张量乘积注意力；自适应大型语言模型，动态推理；峰感知梯度裁剪；参考模型进行数据选择

1.15-2|长叙事视频导演和生成；多模态无缝语音交互；生物医学多模态数据合成；高质量3D对象中心数据集

1.15-4|多层级网页遍历检索问答基准，网站浏览智能体，检索增强生成

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉