ECCV 2024 | 全新激活函数！涨点神器！DiTAC：可训练的高表达激活函数

科技 2024-09-30 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

来源：晓飞的算法工程笔记

非线性激活函数对深度神经网络的成功至关重要，选择合适的激活函数可以显著影响其性能。大多数网络使用固定的激活函数（例如，ReLU、GELU等），这种选择可能限制了它们的表达能力。此外，不同的层可能从不同的激活函数中受益。因此，基于可训练激活函数的兴趣日益增加。

论文提出了一种基于有效微分同胚变换（称为CPAB）的可训练高表达能力激活函数DiTAC。尽管只引入了极少量的可训练参数，DiTAC仍然增强了模型的表达能力和性能，通常会带来显著的改善。它在语义分割、图像生成、回归问题和图像分类等任务中优于现有的激活函数（无论这些激活函数是固定的还是可训练的）。

论文: Trainable Highly-expressive Activation Functions

论文地址：https://arxiv.org/abs/2407.07564
论文代码：https://github.com/BGU-CS-VIL/DiTAC

Introduction

激活函数（AFs）在深度神经网络的成功中扮演着重要角色，因为它们赋予了后者非线性特性。实际上，激活函数对于网络能够近似几乎任意复杂的函数、学习有意义的特征表示以及实现高预测性能至关重要。除了其非线性特性，激活函数还具有各种特性，这些特性直接影响着网络的性能。传统的激活函数，如Logistic Sigmoid和Tanh Unit，会将输入值映射到一个较小的范围，这可能导致网络梯度接近零，从而影响训练性能。修正线性单元（ReLU）及其变种（例如，LReLU和PReLU）部分解决了这个问题，通过将输入映射到一个在一个或两个方向上无限制的范围内。指数激活函数如ELU继承了ReLU的优点，但也将激活函数的响应推向零均值，以提高性能。

一般来说，固定的激活函数（AFs）具有有限的非线性（因此表达能力有限），并对网络施加了学习偏差。因此，将它们调整为不同的问题类型和数据复杂性是具有挑战性的。因此，研究增强表达能力并缓解这种偏差的激活函数设计是一个开放的研究领域。可训练激活函数（TAFs）如PReLU、Swish和PELU通过添加几个可学习参数来调整标准固定激活函数的形状。根据研究，这类函数在表达能力上仅取得了微小的提升，因为这些TAFs的性能往往与其基本的不可训练激活函数相似。Maxout单元提供了另一种激活函数的方法。尽管在解决分类任务方面相较于ReLU有显著改进，但Maxout层中的参数数量会随着网络中神经元数量的增加而增加。

微分同胚是一个可微的可逆函数，具有一个可微的逆。论文提出了一种基于微分同胚的可训练激活函数（Diffeomorphism-based Trainable Activation function,DiTAC），这是一种基于高度表达和高效微分同胚（称为CPAB）的可微参数化TAF。尽管DiTAC仅添加了可以忽略不计的可训练参数，但它的表达能力仍然非常强。如图1所示，与现有的TAFs相比，这些TAFs仅限于学习某种特定形状或仅学习凸函数，而DiTAC能够学习多种形状。之前有研究展示了不同的激活函数适合于不同类型的数据和任务，这一事实激励了像这样的灵活TAF方法。特别地，DiTAC在各种数据集和任务（如语义分割、图像生成、图像分类和回归问题）上取得了显著的改进。

总之，论文的贡献如下：

第一个提出在可训练激活函数中使用灵活微分同胚的研究者。
呈现了DiTAC，这是一种新颖的高度表达的激活函数，它解决了现有可训练激活函数的问题，并且可以轻松应用于任何模型架构。
展示了DiTAC在各种任务和数据集上优于现有的激活函数和可训练激活函数。

CPAB transformations in Deep Learning

由Freifeld等人提出的CPAB变换是一种高效且表达能力强的参数微分同胚。它们被称为CPAB，源于CPA-Based，因为它们基于连续分段仿射（Continuous Piecewise-Affine, CPA）速度场。自其诞生以来，这些变换在深度学习（DL）中找到了许多应用。所有这些工作使用CPAB变换与论文使用它们之间的主要区别在于，在那些工作中，CPAB变换总是应用于目标信号的域（无论是2D图像中的空间域还是时间序列中的时间域），通常是通过将它们融入空间变换网络（Spatial Transformer Net, STN）或时间变换网络（Temporal Transformer Net, TTN）中，而论文则将其（逐元素）应用于特征图的范围（顺便提一下，这也意味着不需要进行网格重采样，这是STNs/TTNs中的一个必需步骤）。图2说明了这一区别。特别地，论文是第一批使用CPAB变换（或者说任何其他高表达性微分同胚家族）来构建可训练激活函数（TAFs）的。

Method

Preliminaries: 1D CPAB Transformations

处理微分同胚通常涉及昂贵的计算，由于在深度学习架构中直接使用微分同胚，因此降低相关计算负担变得尤为重要（相较于非深度学习应用）。设为由参数化的微分同胚，在训练过程中，数量和需要在多个值和多个值下进行计算。

选择CPAB变换作为使用的微分同胚家族的主要原因是它们既具有表达能力又高效。在剩下的部分中，所有的CPAB变换都假定是在一维的。

设为一个有限区间，且设为从到的连续函数空间，这些函数相对于某个固定的将划分为子区间的分区也是分段仿射的。注意到是一个有限维线性空间。设，令，并令表示中的一个通用元素，参数化为。通过对中元素的积分得到的CPAB变换空间定义为

可以证明，所有的都是保序变换（即单调递增）并且是微分同胚。注意，尽管是CPA，但CPAB变换则不是（例如，是可微的，这与任何非平凡的CPA函数不同）。公式1也意味着中的元素被视为速度场。

特别有用的事实有：

的划分越精细，CPAB族的表现力就越强（这也意味着增加）。
CPAB变换使得在封闭形式中快速且准确地计算和梯度成为可能。

综上所述，这些事实意味着CPAB变换能提供了一种便捷且高效的方式来参数化和优化非线性单调递增函数。

The DiTAC Activation Function

论文提出的TAF称为DiTAC，是一种源自CPAB变换的TAF。DiTAC包含极少量的可训练参数，但它却具有很高的表现力。与现有的TAF不同的是，后者为每个输入通道专门分配一个参数，而DiTAC的表现力则来源于CPAB变换的表现力。

为了说明这一点，在图3中展示了在使用ReLU或DiTAC时，具有3个节点隐藏层的回归MLP中非线性是如何逐步演变的。在ReLU的情况下，表现力主要体现在对所有激活响应求和之后（并且结果函数在多个位置是不可微的），而DiTAC的表现力（和可微性）则在每个神经元经历的第一次数据变换中就明显体现出来。值得注意的是，CPAB变换及其梯度的封闭形式表达式的可用性使得DiTAC可以轻松地作为任何深度学习架构中任何激活函数的替代品。

现在解释DiTAC是如何构建的。回想一下，CPAB变换是在有限区间上定义的。它的值域也是一个有限区间，这个区间可能与重合，也可能不重合（这取决于是否对施加零边界条件）。由于某些激活函数的输入可能落在之外，主版本DiTAC将与GELU结合在一起，后者是一些最先进模型中广泛使用的激活函数。回顾一下，GELU的定义为，其中是标准正态分布的累积分布函数。类似GELU的DiTAC函数是

其中是一个（可学习的）CPAB变换，而是的定义域，由用户定义。这个主要的DiTAC版本是在后续的实验中使用的。

还可以通过将与各种其他激活函数结合来构建其他版本的DiTAC，而不仅仅是与GELU结合。例如Leaky-DiTAC，其中作用于，而其余的数据则通过Leaky-ReLU（LReLU）函数处理。也就是说，

有关这两种DiTAC类型的说明，请参见图4。

为了稳定训练并防止学习过于极端的变换，还要对速度场进行了正则化：

其中，是网络中激活层的数量，是DiTAC参数，是与高斯平滑先验（在文献中提出）相关的协方差矩阵，用于CPA速度场。该矩阵有两个超参数：，用于控制速度场的方差，以及，用于控制不同子区间内速度的相似性，从而影响该场的平滑性（在机器学习的意义上）。

How to Drastically Reduce the Computational Cost

在深度学习（DL）中，训练通常涉及大量的激活函数（AF）调用。对于一个大小为的张量，其中是批量大小，是通道数量，是高度和宽度。对张量中的每个元素应用CPAB变换自然需要评估次。

例如，ResNet-50最后一个瓶颈块的AF在批量大小为32的情况下，操作约800K个元素。因此，尽管CPAB变换提供了表示微分同胚的高效解决方案，但在这里天真地使用这样的变换仍然可能在训练过程中产生显著的计算成本，并且过于缓慢。幸运的是，还有更好的方法。该方法能够在学习过程中显著减轻了这一成本。此外，在推理过程中，该解决方案使DiTAC与其他激活函数同样高效。

为了大幅降低学习过程中的成本，将区间（CPAB变换应用的区间）量化为个离散值，且均匀分布。尽管会丢失一些信息，但在神经网络中，量化激活通常对准确性几乎没有影响，只要使用足够多的元素（通常就足够了）。在这种方法中，对量化后的元素集使用CPAB变换，并创建一个查找表，然后可以用来转换输入张量中所有条目的值。即输出，其中是量化函数，并且，其中。

在反向传播中，采用了一种直通估计器的变体。仅计算量化值输出的CPAB导数，然后将其广播为的导数估计：

回顾ResNet-50的例子，只需对一个更小的条目集进行变换（例如，），就可以对相同的输入实现几乎相同的结果。在学习过程中，每当发生变化时（快速）构建这样的查找表。一旦学习完成并在推理之前，将计算一个单一的查找表（每个DiTAC函数一个），并在推理过程中根据需要重复使用该查找表。

DiTAC Versions

DiTAC使用的CPAB变换定义在一个有限区间上，即，其共域也是一个有限区间。为了处理落在之外的输入数据，将与GELU结合，GELU是一种在最新的先进模型中广泛使用的激活函数。通过将与多种其他激活函数结合，或在CPAB的映射外定义某种函数（不一定是已知的激活函数），还可以构建DiTAC的其他版本。

需要注意的是，从概念上讲，可以通过首先应用一种将数据映射到的归一化方法，然后执行CPAB变换，最后将变换后的数据重新缩放回其原始范围，从而在整个输入数据上应用CPAB变换。然而，这样就必须提取整个输入数据的最小值和最大值，而这在训练过程中是很难实现的，因为这些值依赖于网络参数的学习。因此，在训练之前设置区间，通常包括大量的数据，并对超出该范围的数据应用不同的处理。

GELU-like DiTAC (DiTAC)

这是主要的DiTAC版本，也是所有实验中使用的版本。考虑到其在先进架构中的普遍性和成功，GELU是一个自然的选择。落在区间外的输入数据继承GELU的行为，而落在区间内的输入数据则首先经过CPAB变换，然后再通过GELU函数。

GELU-like DiTAC定义如下：

其中，是标准正态分布的累积分布函数（CDF），是CPAB变换，是的定义域，由用户定义。

GELU-DiTAC (GE-DiTAC)

这种激活函数类似于DiTAC的主要版本，只是这里仅对负输入值应用GELU，而对输入数据范围进行纯CPAB变换。为了保持函数的连续性（如果对施加零边界条件），对大于的值应用恒等函数。

GE-DiTAC定义如下：

其中，是标准正态分布的累积分布函数（CDF），是CPAB变换，是的定义域，由用户定义。

需要注意的是，GE-DiTAC使CPAB变换的能力更加明显，因为这部分变换的数据并不与其他任何函数组合。从经验上看，在大多数实验中，它的表现与DiTAC相似，而它的优势主要在于使用简单网络进行简单回归任务时体现出来。

Leaky DiTAC (L-DiTAC)

这里应用于区间，而其余数据通过Leaky-ReLU(LReLU)函数处理。也就是说，

其中，是CPAB变换，是的定义域，由用户定义。这种版本可以被视为ReLU的一个更具表现力的版本。如所示，不同的激活函数（AFs）适合不同类型的数据和任务。这个DiTAC版本可能会改善在ReLU函数表现优于其他现有激活函数的问题。

Infinite-edges DiTAC (inf-DiTAC)

CPAB变换是通过对中的元素进行积分而获得的，是一个从到的连续函数空间，这些函数对于的某个固定划分为分段仿射的。在inf-DiTAC中，类似于GE-DiTAC和L-DiTAC，应用于区间。对于落在该范围之外的输入数据，应用在的剖分（最右和最左单元）两侧学习到的仿射变换，从而产生一个完全由CPAB变换参数控制的连续激活函数。

inf-DiTAC定义如下：

其中，是CPAB变换，和分别是在剖分中最左和最右单元的仿射变换，而是的定义域，由用户定义。

在表9中，展示了所有上述DiTAC版本在论文中提出的二维函数重建任务上的性能评估。可以看出，GE-DiTAC在这个特定任务上提供了最佳性能。

Results

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer111，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

租GPU算力又一轮价格暴跌，对高校和企业意味着什么？

李飞飞团队新作！统一动作与语言，全新多模态模型不仅超懂指令，还能读懂隐含情绪

ICML 2025、IJCAI 2025顶会投稿微信群成立！

浙江大学发布情况通报

CVPR今年这情况，很严重，大家做好准备吧

顶刊TPAMI 2024！北大提出实用、紧致的智能图像压缩感知技术

ECCV 2024 | 迈向通用激光雷达语义分割！取代Transformer的新架构SFPNet

IJCAI 2025、ICML 2025 顶会投稿微信群成立！

最大的Mamba和遥感微信群成立！

突发：中科院二区TOP期刊被剔除SCI！

一文看尽2024年11种主流注意力机制

大模型助力分割，刷新10项SOTA！清华和美团提出HyperSeg：通用分割框架

复旦&微软提出StableAnimator：首个端到端的高质量ID一致性人类视频生成新框架！

ICLR 2025 快开奖啦！IJCAI 2025、ICML 2025投稿微信群成立！

扩散模型和多模态微信群来了！

颜宁团队，最新成果！

Kaggle大神自述：炼丹经验总结

NeurIPS神仙打架：李飞飞180页PPT谈视觉智能，何恺明谈AI宿命论，Bengio同OpenAI员工吵架。。。

收录顶会！elaTCSF：用于闪烁检测和建模可变刷新率闪烁的时间对比敏感度函数

26岁OpenAI举报人疑自杀！死前揭ChatGPT训练黑幕

ICLR 2025 即将开奖！IJCAI 2025 投稿微信群成立！

第一单位！科技大学，发Nature！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

愤怒！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

天津大学提出iLLaVA：你的大模型仅需处理33%输入

ReID和目标跟踪微信群来了！

拆分！河南，拟建2所新大学

AAAI 2025 开会群成立！转投 IJCAI 2025 投稿微信群来了！

2026届大厂校招群成立！

悼念！清华大学计算机教授、《数据结构》编著者严蔚敏去世，享年 86 岁

NVIDIA自动驾驶技术：从训练到推理

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

AAAI 2025 | CALF：用于长期时间序列预测的高效跨模态LLM微调框架

AAAI收了一篇论文：没算法没实验，全靠idea思路好...

Sora之后，Apple发布视频生成大模型STIV：87亿参数大一统T2V、TI2V任务

NeurIPS 2024 | GarmentLab：衣物与柔体操作的物理仿真环境与基准测试

IJCAI 2025 投稿微信群成立！

扩散模型和多模态微信群来了！

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

AAAI 2025接收结果出炉！Mamba再次爆发

谷歌狙击OpenAI，突发Gemini 2.0新一代大模型！主打多模态和Agent

NeurIPS 2024 | 智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

2026届AI校招群成立！

ReID和目标跟踪微信群来了！

985教授已发表1226篇论文引争议，本人回应！

只要敢捞偏门，篇篇都是顶会顶刊！

AAAI 2025 | 从架构角度重新审视3D异常检测的多模态融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ECCV 2024 | 全新激活函数！涨点神器！DiTAC：可训练的高表达激活函数

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

Introduction

CPAB transformations in Deep Learning

Method

Preliminaries: 1D CPAB Transformations

The DiTAC Activation Function

How to Drastically Reduce the Computational Cost

DiTAC Versions

GELU-like DiTAC (DiTAC)

GELU-DiTAC (GE-DiTAC)

Leaky DiTAC (L-DiTAC)

Infinite-edges DiTAC (inf-DiTAC)

Results

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer111，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！