揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

文摘 2024-11-12 23:59 上海

点击下方卡片，关注计算机视觉Daily

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：机器之心

本文的通讯作者是北京大学计算机学院长聘教授李戈。第一作者：董益宏，北京大学计算机学院 22 级博士生，曾在 ISSTA、FSE、ACL、NeurIPS、TOSEM 等 CCF-A 类 / SCI 一区国际顶级会议和期刊上发表 11 篇学术论文。

周期性现象广泛存在，深刻影响着人类社会和自然科学。作为最重要的基本特性之一，许多规律都显式或隐式地包含周期性，例如天文学中的行星运动、气象学中的季节变化、生物学中的昼夜节律、经济学中的商业周期、物理学中的电磁波以及数学运算和逻辑推理等。因此，在许多任务和场景中，人们希望对周期进行建模，以便根据以往的经验进行推理。

尽管以 MLP 和 Transformer 为代表的基础模型已经取得了显著的成功，但是它们却在周期性建模方面存在潜在的缺陷。即使面对简单的正弦函数，现有基础模型也难以理解其中的周期性规律，在外推时表现出完全失控的状态，未能有效捕捉到周期性现象的本质。

图 1：不同基础模型在其训练数据域内外对正弦函数的表现，其中 x 为标量。

为此，北京大学李戈教授的团队提出了一种新型网络架构 FAN（Fourier Analysis Networks）。通过引入傅里叶级数的思想，FAN 能够将周期性信息直接嵌入网络的结构中，使模型更自然地捕捉和理解数据中的周期性模式。

论文链接：https://arxiv.org/pdf/2410.02675.pdf
代码链接：https://github.com/YihongDong/FAN
论文标题：FAN: Fourier Analysis Networks

实验表明，FAN 不仅在周期性建模上的表现显著优于现有模型，而且在符号公式表示、时间序列预测和语言建模等实际任务中也同样表现出色，超过了 Transformer 等主流模型。

研究者认为，许多实际任务都显式或者隐式地包含潜在的周期性特征，良好的周期性建模对于提升模型在这些任务上的表现是必要的，而现有基础模型严重依赖数据驱动的优化方式，缺少明确的机制来理解数据中的根本原理。

FAN 的意义在于，它提供了一种全新的范式来有效地建模周期性，能够无缝替换传统 MLP，同时减少参数量和计算量，填补了当前基础模型在周期性建模上的缺陷，并展示出广泛的应用潜力。

图 2：MLP Layer 和 FAN Layer 的示例。

FAN 的实现细节

北大研究团队首先构建一个简单神经网络来建模傅里叶级数，然后在此基础上设计了 FAN 网络架构。

为构建一个简单的神经网络表示函数的傅里叶级数展开，我们可以将表示为：

其中是可学习参数，(I) 根据和通过定积分计算，(II) 和 (III) 是矩阵运算的等价形式，[・||・] 和 [・,・] 分别表示沿第一维度和第二维度的连接。为了充分利用深度学习的优势，我们可以堆叠上述网络形成深度神经网络，其中第 i 层表示为。因此，可以表示为：

其中表示左侧函数作用于右侧输入，即。然而，我们发现直接堆叠会导致模型的主要参数集中于学习角频率 ()，从而忽略了傅里叶系数 (和) 的学习，如下所示：

其中定义为，用于近似角频率，用于近似傅里叶系数。因此，拟合傅里叶系数的能力与的深度无关，这是一个不理想的结果。

为了应对这一问题，研究团队根据以下原则设计了 FAN：1) FAN 表示傅里叶系数的能力应与其深度正相关；2) 任何隐藏层的输出都可以通过后续层使用傅里叶级数来建模周期性。第一个原则通过利用 FAN 的深度增强了其周期性建模的表现力，而第二个原则确保 FAN 中间层的特征可用于执行周期性建模。

假设我们将解耦为：

其中

为了满足这两个原则，FAN 的中间层输入需要同时使用和而不是依次应用它们。

最终，FAN 基于此设计，其 FAN 层定义如下：

其中是可学习参数，表示激活函数。

整个 FAN 定义为 FAN Layer的堆叠：

其中

FAN 的性能表现

1. 周期建模

下图 3 展示了 FAN 和其他模型在周期性建模中的表现。结果表明，现有的神经网络（包括 MLP、KAN 和 Transformers）在建模周期性方面表现出明显的不足。尽管它们试图拟合这些周期函数，但其内在能力限制了它们在大范围周期性上的性能表现。相比之下，FAN 在所有这些周期性建模任务中都明显优于基线。更值得一提的是，FAN 在训练数据域内和域外的测试数据上都表现得非常出色，表明它能够真正理解周期性的深刻原理并对其进行精准建模，而不仅仅是记住训练数据。

图 3 FAN 在周期性建模中的表现与 MLP、KAN 和 Transformer 相比，其中绿线表示训练数据域内的测试数据，而蓝线表示训练数据域外的测试数据。

研究团队还分析了不同模型在学习复杂周期函数任务上的训练过程，如下图 4 所示，结果如下：1）FAN 在收敛速度和最终效果方面都远远超过其他模型。2）与 FAN 相比，FAN (Gated) 通常可以实现更快的收敛，但最终性能仍然相当。3）随着训练轮数的增加，虽然其他模型的训练损失变得稳定或逐渐减少，但它们的建模可能与测试数据的分布有很大差异，导致测试损失急剧增加。这一现象进一步证明了这些模型在捕捉周期性方面的缺陷。

图 4 不同模型在学习复杂周期函数任务上的训练和测试损失比较

2. 符号公式表示

从不同模型应用于数学和物理学中四个常见函数的表现中可以观察到，虽然 KAN 在参数数量较少时能与 FAN 相媲美，但随着参数数量的增加，其性能会显著下降。相反，随着参数数量的增加，FAN 拟合这些函数始终优于其他基线，包括 MLP、KAN 和 Transformer，尽管这些函数中的许多只是部分周期性的或完全非周期性的。这些结果表明，FAN 不仅增强了对周期性的建模能力，同时也没有损害拟合非周期性函数的能力。

图 5 不同模型在符号公式表示任务中不同参数量的表现

3. 时间序列预测

如下表 2 所示，研究团队在四个公共数据集上比较了结合 FAN 的 Transformer 和其他序列模型在时间序列预测任务上的表现。

在大多数情况下，与 LSTM、Mamba 和标准 Transformer 相比，结合 FAN 和 FAN（Gated）的 Transformer 在这些任务上取得了最佳性能。它们相对于标准 Transformer 的改进是显著的，平均相对改进范围为 14.3%-15.0% 的 MSE 和 7.6%-7.9% 的 MAE。这些结果表明，在神经网络中加入显式周期模式编码可以提高实际应用中的时间序列预测性能。

4. 语言建模

研究者报告了不同序列模型在四种情绪分析数据集上的性能比较，如表 3 所示。可以发现，结合 FAN 和 FAN（Gated）的 Transformer 与标准 Transformer 和其他序列模型（例如 LSTM 和 Mamba）相比表现出明显优越的性能，尤其是在 IMDB、Sentiment140 和 Amazon Reviewers 数据集上的零样本跨领域表现。结合 FAN 的 Transformer 在损失和准确度方面分别实现了最 14.65% 和 8.50% 的相对改进，同时将参数数量减少了约 14.16M。结果表明周期性建模在跨领域语言建模和情绪分析任务上具有提高有效性和泛化的潜力。

FAN 的表达能力和应用范围

FAN 在理论上具有与 MLP 相同的表达能力，因为它也遵循通用近似定理，这确保了其函数近似能力。不同的是，FAN 通过明确纳入周期性，引入了重要的功能增强，这是传统 MLP 所不具备的。FAN 的这一设计，不仅全面继承了 MLP 的既有优势，还增强了其捕获数据周期性特征的能力。因此，FAN 可以作为 MLP 的有力替代品。

当然，FAN 的实用性不仅限于明确需要周期性建模的任务，在更广泛的应用中也展现出强大的适用性。研究团队通过一系列现实世界任务的实验证明，如符号公式表示、时间序列预测和语言建模等，FAN 的表现明显优于 MLP 和其他基线模型。

事实上，许多看似与周期性无直接关联的机器学习任务，如数学运算和逻辑推理，实际上也可能隐藏着周期性。如果神经网络缺乏针对周期性特征进行建模的能力，则可能会损害其学习效率。从更深层次的角度来看，周期性不仅仅是一种数据特征，还反映了一种规律或知识，即允许抽象的规则和原理在不同上下文之间转移和重用。

总结来看，FAN 与 MLP 相比，不仅增强了周期性建模能力，且参数量和计算量更少，有望成为基础模型的关键组成部分。未来，北大研究团队将进一步扩大 FAN 的应用范围，增强其作为基础模型组件的表现，持续推动基础模型的技术进步与创新发展。

绘图神器下载
后台回复：绘图神器，即可下载绘制神经网络结构的神器！
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
CVPR 2024 论文和代码下载
在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立
扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzU4OTg3Nzc3MA==&mid=2247496697&idx=1&sn=7ba450928bbaefb66fc36ca3a277efd5

计算机视觉Daily

一个专注于计算机视觉开源项目的公众号，涵盖CV、传统图像处理、OpenCV、深度学习、机器学习代码实战和相关资料等内容

最新文章

Mamba作者点赞！清华团队深入分析长上下文建模中的状态崩溃

CVPR 2025 坐等Rebuttal，ICLR 2025和AAAI 2025投稿微信群来了！

突发！AI科学家重返谷歌！

微软亚洲研究院MSRA招聘实习生

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

重磅发布！最新版《深度学习》书籍开放下载

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

发一篇CVPR真不难

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

博士延毕，师兄终于毕业了。。。

NeurIPS 2024 Oral | 大模型量化新工作！4bit达到新SOTA！

ICLR 2025 分数出炉！附AAAI 2025和CVPR 2025投稿微信群

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

突发！谷歌宣布35岁Keras之父Francois Chollet离职！

面完腾讯算法岗，心态崩了。。。

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 分数出炉！附ICLR 2025和CVPR 2025投稿微信群

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

ICLR 2025 即将开分！ICLR 2025和CVPR 2025投稿微信群来了！

这本大模型书籍可以下载了！

即插即用！加速扩散Transformer！Meta提出自适应缓存新方法，视频生成加快2.6倍！

多模态大模型最新研究进展！OpenAI、谷歌、Meta和微软杀疯了！

AAAI 2025 分数出炉！附微信群！

顶刊TPAMI 2024！解耦图神经网络：同时训练多个简单的GNN，而不是一个！

AAAI 2025 即将开奖！附微信群！

Copilot一夜杀死编程助手！GitHub官宣接入Claude和谷歌Gemini！OpenAI沦为备胎。。。

AAAI 2025 投稿微信群成立！

10秒创造一个世界！吴佳俊团队新作实时交互式3D世界生成，比现有技术快100倍！

CVPR 2025 投稿微信群成立！

黄仁勋预言成真了！！

NeurlPS 2024 Oral | 多模态融合检测端到端算法E2E-MFD来了！

CVPR 2025 投稿交流群成立！

Transformer杀疯了！跨模态3D目标检测SOTA！易复现！

NeurIPS 2024 | 免训练！超强！FreeLong：长视频生成框架

CVPR 2025 投稿交流群来了！

LeCun锐评诺奖：出于压力才颁给AI，但两个成果已经完全无用！玻尔兹曼机和Hopefield网络

敲响警钟！首例大模型卷进青少年自杀案？明星AI创业公司面临诉讼。。。

ECCV 2024 | 谷歌提出LookupViT：全新通用视觉Transformer块

ICLR 2025 投稿交流群来了！

OpenAI满血版o1剧透：数学代码能力再破天花板！已开启测试评估！

ECCV 2024 | ClearCLIP：删除两个组件，可以提升语义分割性能！

AAAI 2025 投稿交流群成立！

Apple AI落后两年？库克回应：“不抢首发，只做最好”。。。

异常检测和缺陷检测微信群成立！

AI解决132年数学难题！Transformer成功寻找新的李雅普诺夫函数，三体问题相关

AAAI 2025 投稿交流群来了！

DenseNet作者刘壮官宣！将入职普林斯顿大学助理教授！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN：填补周期性特征建模缺陷

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

绘图神器下载

后台回复：绘图神器，即可下载绘制神经网络结构的神器！

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

▲扫码加入星球学习

整理不易，请赞和在看

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！