字节豆包大模型团队突破残差连接局限！预训练收敛最快加速80%

科技 2024-11-07 13:49 北京

机器之心发布

机器之心编辑部

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

自从 ResNet 提出后，残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题，使得网络的训练更加稳定。

但是，现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡，无法同时解决。

为此，字节豆包大模型 Foundation 团队于近日提出超连接（Hyper-Connections），针对上述 “跷跷板式” 困境，实现了显著提升。

该方法适用于大规模语言模型（LLMs）的预训练，在面向 Dense 模型和 MoE 模型的实验中，展示了显著性能提升效果，使预训练收敛速度最高可加速 80%。

研究团队还发现，超连接在两个小型的视觉任务中表现同样优异，这表明，该方法在多个领域有广泛的应用前景。

论文标题：Hyper-Connections
论文链接：https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及，残差连接的两种主要变体 Pre-Norm 和 Post-Norm 各自都有其局限性，具体体现如下：

Pre-Norm：在每个残差块之前进行归一化操作，可有效减少梯度消失问题。然而，Pre-Norm 在较深网络中容易导致表示崩溃，即深层隐藏表示过于相似，从而削弱了模型学习能力。
Post-Norm：在残差块之后进行归一化操作，有助于减少表示崩溃问题，但也重新引入梯度消失问题。在 LLM 中，通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接（Depth-connections）和宽度连接（Width-connections）。

从理论上，这使得模型不仅能够动态调整不同层之间的连接强度，甚至能重新排列网络层次结构，弥补了残差连接在梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。

深度连接与宽度连接

起初，该方法会将网络输入扩展为 n 个隐向量（n 称作 Expansion rate）。之后每一层的输入都会是 n 个隐向量，超连接会对这些隐向量建立以下两类连接：

深度连接（Depth-Connections）：这些连接类似于残差连接，只为输入与输出之间的连接分配权重，允许网络学习不同层之间的连接强度。
宽度连接（Width-Connections）：这些连接使得每一层多个隐藏向量之间可进行信息交换，从而提高模型表示能力。

静态与动态超连接

超连接可以是静态的，也可以是动态的。

其中，静态超连接（Static Hyper-Connections, SHC）意味着连接权重在训练结束后固定不变。而动态超连接（Dynamic Hyper-Connections, DHC）则对应连接权重可根据输入动态调整。实验表明，动态超连接效果更好。

2. 技术细节

超连接（Hyper-connections）

首先，考虑第 k 层的输入隐藏向量，网络的初始输入为，并将其复制 n 次，形成初始的超隐藏矩阵（Hyper Hidden Matrix）：

这里，n 称为扩展率（Expansion Rate）。在第 k 层，输入是上一层的超隐藏矩阵，即：

对最后一层的超隐藏矩阵逐行求和，得到所需的隐藏向量，并通过一个投影层输出网络最终的结果（在 Transformer 中即为归一化层和解嵌入层）。

为了简化后续分析的符号表示，作者省略层索引，直接将超隐藏矩阵表示为：

超连接可以用一个矩阵来表示，对于扩展率为 n 的情况，超连接矩阵 HC 如下：

考虑一层网络，它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出可以简单地表示为：

也就是说，用作为权重对输入进行加权求和，得到当前层的输入：

同时，用于将映射到残差超隐藏矩阵，表示如下：

最终的输出表达式为：

伪代码如下:

动态超连接的实现

超连接矩阵的元素可以动态依赖于输入，动态超连接的矩阵表示为：

同样，给定层和输入，可以得到动态超连接的输出：

在实际操作中，团队结合了静态和动态矩阵来实现动态超连接，动态参数通过线性变换获得。

为了稳定训练过程，团队在线性变换前引入归一化，并在其后应用 tanh 激活函数，通过一个可学习的小因子进行缩放。动态参数的计算公式如下：

实验表明，动态超连接在语言建模任务中优于静态超连接。

3. 为什么使用超连接（Hyper-Connections）

研究团队认为，残差连接的两种变体，即前归一化（Pre-Norm）和后归一化（Post-Norm），可以被视为不可训练的超连接。

随后，团队引入了顺序 - 并行二象性概念，展示了超连接如何动态优化层的排列以提升网络性能。

残差连接是不可训练的超连接

前归一化和后归一化的残差连接可以表示为以下扩展率为的超连接矩阵：

其中，和分别表示神经网络层输入和输出的标准差，表示它们之间的协方差。

对于 Pre-Norm，其超连接矩阵是一个的矩阵，右下三角部分填充为 1，其余部分为占位符 0。对于 Post-Norm，权重依赖于输入和输出的方差及协方差，形成一个的矩阵。因此，它们的超连接矩阵是不可训练的。

而本工作提出的方法的超连接矩阵是矩阵，且权重是可训练的，甚至可以基于输入进行动态预测。

顺序 - 并行二象性

给定一系列神经网络模块，我们可以将它们顺序排列或并行排列。作者认为，超连接可以学习如何将这些层重新排列，形成顺序和并行配置的混合。

在不失一般性的情况下，可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习，神经网络将被顺序排列：

在这种情况下，深度连接退化为残差连接，如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时，神经网络每两层将被并行排列，类似于 Transformer 中的 parallel transformer block 的排列方式，如图 (b) 所示。

因此，通过学习不同形式的超连接矩阵，网络层的排列可以超越传统的顺序和并行配置，形成软混合甚至动态排列。对于静态超连接，网络中的层排列在训练后保持固定；而对于动态超连接，排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上，涵盖了 Dense 模型和 MoE 模型。

实验结果表明，使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

只要扩展率 > 1，效果就十分显著，且训练更稳定，消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型，效果也十分亮眼，同时可以看到有超连接的网络训练更稳定。

7B 候选激活 1.3B 的 MoE 模型实验

可以看到，下游指标全涨，在 ARC-Challenge 上甚至涨了 6 个百分点。

综上，研究团队介绍了超连接（Hyper-Connections），它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明，超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是，超连接的引入几乎不增加额外的计算开销或参数量，团队认为，该成果具有广泛的应用潜力，可以推广到文音视图模态的不同任务上，包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题，尤其在 LLMs 和多模态方面，期望实现更多突破。

更多团队技术研究进展，可以进入「豆包大模型团队」技术解读栏目了解。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941988&idx=2&sn=1b35f2af9982c529a1c9217bfab24a02

机器之心

专业的人工智能媒体和产业服务平台

最新文章

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉