突破残差连接局限！字节豆包团队提出超连接：预训练收敛最快加速80%！

科技 2024-11-09 00:00 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

字节跳动豆包大模型团队于近日提出超连接（Hyper-Connections），一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题，超连接可通过动态调整不同层之间的连接权重，解决梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。在 Dense 模型和 MoE 模型预训练中，超连接方案展示出显著的性能提升效果，使收敛速度最高可加速 80%。

自从 ResNet 提出后，残差连接已成为深度学习模型的基础组成部分。其主要作用是 —— 缓解梯度消失问题，使得网络的训练更加稳定。

但是，现有残差连接变体在梯度消失和表示崩溃之间存在一种 “跷跷板式” 的权衡，无法同时解决。

为此，字节豆包大模型 Foundation 团队于近日提出超连接（Hyper-Connections），针对上述 “跷跷板式” 困境，实现了显著提升。

该方法适用于大规模语言模型（LLMs）的预训练，在面向 Dense 模型和 MoE 模型的实验中，展示了显著性能提升效果，使预训练收敛速度最高可加速 80%。

研究团队还发现，超连接在两个小型的视觉任务中表现同样优异，这表明，该方法在多个领域有广泛的应用前景。

论文标题：Hyper-Connections
论文链接：https://arxiv.org/pdf/2409.19606

1. 超连接的核心思想

前文提及，残差连接的两种主要变体 Pre-Norm 和 Post-Norm 各自都有其局限性，具体体现如下：

Pre-Norm：在每个残差块之前进行归一化操作，可有效减少梯度消失问题。然而，Pre-Norm 在较深网络中容易导致表示崩溃，即深层隐藏表示过于相似，从而削弱了模型学习能力。
Post-Norm：在残差块之后进行归一化操作，有助于减少表示崩溃问题，但也重新引入梯度消失问题。在 LLM 中，通常不会采用此方法。

超连接的核心思路在于 —— 引入可学习的深度连接（Depth-connections）和宽度连接（Width-connections）。

从理论上，这使得模型不仅能够动态调整不同层之间的连接强度，甚至能重新排列网络层次结构，弥补了残差连接在梯度消失和表示崩溃（Representation Collapse）之间的权衡困境。

深度连接与宽度连接

起初，该方法会将网络输入扩展为 n 个隐向量（n 称作 Expansion rate）。之后每一层的输入都会是 n 个隐向量，超连接会对这些隐向量建立以下两类连接：

深度连接（Depth-Connections）：这些连接类似于残差连接，只为输入与输出之间的连接分配权重，允许网络学习不同层之间的连接强度。
宽度连接（Width-Connections）：这些连接使得每一层多个隐藏向量之间可进行信息交换，从而提高模型表示能力。

静态与动态超连接

超连接可以是静态的，也可以是动态的。

其中，静态超连接（Static Hyper-Connections, SHC）意味着连接权重在训练结束后固定不变。而动态超连接（Dynamic Hyper-Connections, DHC）则对应连接权重可根据输入动态调整。实验表明，动态超连接效果更好。

2. 技术细节

超连接（Hyper-connections）

首先，考虑第 k 层的输入隐藏向量，网络的初始输入为，并将其复制 n 次，形成初始的超隐藏矩阵（Hyper Hidden Matrix）：

这里，n 称为扩展率（Expansion Rate）。在第 k 层，输入是上一层的超隐藏矩阵，即：

对最后一层的超隐藏矩阵逐行求和，得到所需的隐藏向量，并通过一个投影层输出网络最终的结果（在 Transformer 中即为归一化层和解嵌入层）。

为了简化后续分析的符号表示，作者省略层索引，直接将超隐藏矩阵表示为：

超连接可以用一个矩阵来表示，对于扩展率为 n 的情况，超连接矩阵 HC 如下：

考虑一层网络，它可能是 Transformer 中的 attention 层或者是 FFN 层。超连接的输出可以简单地表示为：

也就是说，用作为权重对输入进行加权求和，得到当前层的输入：

同时，用于将映射到残差超隐藏矩阵，表示如下：

最终的输出表达式为：

伪代码如下:

动态超连接的实现

超连接矩阵的元素可以动态依赖于输入，动态超连接的矩阵表示为：

同样，给定层和输入，可以得到动态超连接的输出：

在实际操作中，团队结合了静态和动态矩阵来实现动态超连接，动态参数通过线性变换获得。

为了稳定训练过程，团队在线性变换前引入归一化，并在其后应用 tanh 激活函数，通过一个可学习的小因子进行缩放。动态参数的计算公式如下：

实验表明，动态超连接在语言建模任务中优于静态超连接。

3. 为什么使用超连接（Hyper-Connections）

研究团队认为，残差连接的两种变体，即前归一化（Pre-Norm）和后归一化（Post-Norm），可以被视为不可训练的超连接。

随后，团队引入了顺序 - 并行二象性概念，展示了超连接如何动态优化层的排列以提升网络性能。

残差连接是不可训练的超连接

前归一化和后归一化的残差连接可以表示为以下扩展率为的超连接矩阵：

其中，和分别表示神经网络层输入和输出的标准差，表示它们之间的协方差。

对于 Pre-Norm，其超连接矩阵是一个的矩阵，右下三角部分填充为 1，其余部分为占位符 0。对于 Post-Norm，权重依赖于输入和输出的方差及协方差，形成一个的矩阵。因此，它们的超连接矩阵是不可训练的。

而本工作提出的方法的超连接矩阵是矩阵，且权重是可训练的，甚至可以基于输入进行动态预测。

顺序 - 并行二象性

给定一系列神经网络模块，我们可以将它们顺序排列或并行排列。作者认为，超连接可以学习如何将这些层重新排列，形成顺序和并行配置的混合。

在不失一般性的情况下，可以将扩展率设置为 n=2。如果超连接以如下矩阵形式学习，神经网络将被顺序排列：

在这种情况下，深度连接退化为残差连接，如图 (a) 所示。

当奇数层和偶数层的超连接矩阵分别定义为以下形式时，神经网络每两层将被并行排列，类似于 Transformer 中的 parallel transformer block 的排列方式，如图 (b) 所示。

因此，通过学习不同形式的超连接矩阵，网络层的排列可以超越传统的顺序和并行配置，形成软混合甚至动态排列。对于静态超连接，网络中的层排列在训练后保持固定；而对于动态超连接，排列可以根据每个输入动态调整。

4. 实验结果

实验主要集中在大规模语言模型的预训练上，涵盖了 Dense 模型和 MoE 模型。

实验结果表明，使用超连接的模型显著优于使用残差连接的模型。

1B Dense 模型实验

只要扩展率 > 1，效果就十分显著，且训练更稳定，消掉了训练 loss 的 spikes。

7B Dense 模型实验

团队甚至 Scale 到了 7B 模型，效果也十分亮眼，同时可以看到有超连接的网络训练更稳定。

7B 候选激活 1.3B 的 MoE 模型实验

可以看到，下游指标全涨，在 ARC-Challenge 上甚至涨了 6 个百分点。

综上，研究团队介绍了超连接（Hyper-Connections），它解决了残差连接在梯度消失和表示崩溃之间的权衡问题。实验结果表明，超连接在大规模语言模型的预训练以及视觉任务中都表现出显著的性能提升。

值得注意的是，超连接的引入几乎不增加额外的计算开销或参数量，团队认为，该成果具有广泛的应用潜力，可以推广到文音视图模态的不同任务上，包括多模态理解、生成基座模型等。

5. 写在最后

团队关注底层问题，尤其在 LLMs 和多模态方面，期望实现更多突破。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247610704&idx=3&sn=281affbbaa2dc1d48859261bf91e7354

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

炼丹神器来了！ Kaggle大神强推！

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

Nature子刊！ViTaM：全新的视觉 - 触觉联合记录和追踪系统

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

最大的Mamba和遥感微信群成立！

大学“一级教授”和“四级教授”的区别有多大？

中央发文：不合格博士生，退出！

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AAAI 2025 即将开奖！附CVPR 2025、ICLR 2025 投稿微信群！

异常检测和缺陷检测微信群成立！

教育部公布：2025年考研人数，再降50万！

16岁中学生获正高职称，后续来了

可以封神了！原来找论文idea这么简单

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

ICLR 2025 改分啦！ICLR 2025和CVPR 2025投稿微信群成立！

DeepSeek团队新作JanusFlow：1.3B大模型统一视觉理解和生成

年仅42岁！一高校青年教师病逝……

面试小米，惨不忍睹。。。

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

CVPR 2025、ICLR 2025和AAAI 2025投稿微信群来了！

扩散模型和多模态微信群成立！

重磅！2024年全球高被引科学家名单出炉！

YOLO跌落神坛？新一代目标检测器有新突破

NeurIPS 2024 | Coupled Mamba：通过耦合SSM增强多模态融合

MMRel：多模态大模型时代的评测物体间关系理解新基准

ICASSP 2025 出分了！投稿群成立！附CVPR 、AAAI 2025交流群！

医学图像微信群来了！

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

突破残差连接局限！字节豆包团队提出超连接：预训练收敛最快加速80%！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！