AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

文摘 2025-01-19 18:05 安徽

标题：FFT-based Dynamic Token Mixer for Vision

论文链接：https://arxiv.org/pdf/2303.03932

代码链接：https://github.com/okojoalg/dfformer

来源：AAAI 2024

1.定义与结构

Dynamic Filter模块主要由两个部分组成：

Filter-Generating Network (滤波器生成网络):该网络根据输入动态生成滤波器。输入可以是图像或其他特征，输出是针对特定样本的滤波器。这些滤波器是样本特定的，而不是固定的模型参数。
Dynamic Filtering Layer (动态过滤层):该层将生成的滤波器应用到输入上，生成最终的输出。这个过程是可微分的，允许端到端的训练。

2.工作原理

- 滤波器生成：滤波器生成网络接收输入,生成滤波器 ,该滤波器可以应用于另一个输入以生成输出。滤波器的大小决定了感受野的大小，具体选择依赖于应用需求。"

- 动态卷积：动态卷积层使用动态生成的滤波器进行卷积操作，而不是预训练的固定滤波器。这种动态生成的滤波器可以根据输入内容进行调整，从而提高模型的性能。"

3.应用场景

- 图像生成：根据一个视角图预测其他视角(如旋转人脸)、预测视频下一帧、2D变30等任务中常用到动态过滤模块。

- 特征提取：在需要自适应特征提取的任务中，动态过滤模块可以灵活地生成适合特定样本的滤波器，从而提高特征提取的准确性。

- 频域操作：一些动态过滤模块在频域进行操作，利用快速傅里叶变换(FFT)将特征图转换为频域，应用滤波器后再通过逆FFT转换回空间域。这种方法可以降低计算复杂度，同时捕捉全局信息。

4. 具体实现

以一个具体的实现为例，Dynamic Filter模块可以包括以下步骤：

定义滤波器基：预定义一组滤波器基，如低通滤波器、高通滤波器或带通滤波器。
使用MLP学习权重：通过一个多层感知机（MLP）层学习每个特征通道对的滤波器基权重。
生成滤波器：根据MLP的输出，将滤波器基与权重相乘并累加，得到最终的滤波器。
频域操作：使用FFT将特征图转换为频域，应用生成的滤波器，最后通过逆FFT将结果转换回空间域。

5. 优势

灵活性：滤波器可以根据输入动态生成，适用于多种不同的任务和数据。
性能提升：通过自适应生成滤波器，可以更好地捕捉输入数据的特征，从而提高模型的性能。
计算效率：在频域进行操作可以降低计算复杂度，同时保持全局信息的捕捉能力。

代码实现

import torchimport torch.nn as nnfrom timm.models.layers.helpers import to_2tuple
class StarReLU(nn.Module):    def __init__(self, scale_value=1.0, bias_value=0.0, scale_learnable=True, bias_learnable=True, mode=None, inplace=False):        super().__init__()        self.inplace = inplace        self.relu = nn.ReLU(inplace=inplace)        self.scale = nn.Parameter(scale_value * torch.ones(1), requires_grad=scale_learnable)        self.bias = nn.Parameter(bias_value * torch.ones(1), requires_grad=bias_learnable)
    def forward(self, x):        return self.scale * self.relu(x) ** 2 + self.bias
class Mlp(nn.Module):    def __init__(self, dim, mlp_ratio=4, out_features=None, act_layer=StarReLU, drop=0., bias=False, **kwargs):        super().__init__()        in_features = dim        out_features = out_features or in_features        hidden_features = int(mlp_ratio * in_features)        drop_probs = to_2tuple(drop)                self.fc1 = nn.Linear(in_features, hidden_features, bias=bias)        self.act = act_layer()        self.drop1 = nn.Dropout(drop_probs[0])        self.fc2 = nn.Linear(hidden_features, out_features, bias=bias)        self.drop2 = nn.Dropout(drop_probs[1])
    def forward(self, x):        x = self.fc1(x)        x = self.act(x)        x = self.drop1(x)        x = self.fc2(x)        x = self.drop2(x)        return x
class DynamicFilter(nn.Module):    def __init__(self, dim, expansion_ratio=2, reweight_expansion_ratio=.25, act1_layer=StarReLU, act2_layer=nn.Identity, bias=False, num_filters=4, size=14, weight_resize=False, **kwargs):        super().__init__()        size = to_2tuple(size)        self.size = size[0]        self.filter_size = size[1] // 2 + 1        self.num_filters = num_filters        self.dim = dim        self.med_channels = int(expansion_ratio * dim)        self.weight_resize = weight_resize        self.pwconv1 = nn.Linear(dim, self.med_channels, bias=bias)        self.act1 = act1_layer()        self.reweight = Mlp(dim, reweight_expansion_ratio, num_filters * self.med_channels)        self.complex_weights = nn.Parameter(torch.randn(self.size, self.filter_size, num_filters, 2, dtype=torch.float32) * 0.02)        self.act2 = act2_layer()        self.pwconv2 = nn.Linear(self.med_channels, dim, bias=bias)
    def forward(self, x):        B, H, W, _ = x.shape        routeing = self.reweight(x.mean(dim=(1, 2))).view(B, self.num_filters, -1).softmax(dim=1)        x = self.pwconv1(x)        x = self.act1(x)        x = x.to(torch.float32)        x = torch.fft.rfft2(x, dim=(1, 2), norm='ortho')        if self.weight_resize:            complex_weights = resize_complex_weight(self.complex_weights, x.shape[1], x.shape[2])            complex_weights = torch.view_as_complex(complex_weights.contiguous())        else:            complex_weights = torch.view_as_complex(self.complex_weights)        routeing = routeing.to(torch.complex64)        weight = torch.einsum('bfc,hwf->bhwc', routeing, complex_weights)        if self.weight_resize:            weight = weight.view(-1, x.shape[1], x.shape[2], self.med_channels)        else:            weight = weight.view(-1, self.size, self.filter_size, self.med_channels)        x = x * weight        x = torch.fft.irfft2(x, s=(H, W), dim=(1, 2), norm='ortho')        x = self.act2(x)        x = self.pwconv2(x)        return x
if __name__ == '__main__':    x = torch.randn(4, 512, 7, 7).cuda()    x = x.permute(0, 2, 3, 1)    model = DynamicFilter(512, size=7).cuda()    out = model(x)    out = out.permute(0, 3, 1, 2)    print(out.shape)

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉