（2024）KAN: Kolmogorov–Arnold Networks：评论

文摘 2024-07-05 16:34 新加坡

KAN: Kolmogorov–Arnold Networks: A review

进 Q 交流群：922230617 或加 VX：CV_EDPJ 进 V 交流群

0. 摘要

1. MLP 也有可学习的激活函数

2. 标题的意义

3. KAN 是具有样条基激活函数的 MLP

4. 关于 KAN 打破维度灾难的说法是错误的

5. 参考文献

0. 摘要

为什么要评论这篇文章？2024 年 4 月 30 日，KAN [Liu et al., 2024] 出现在 ArXiV 上，到 5 月 7 日，我已经从多位学生那里听说了这篇论文，而这些学生平时并不会告诉我新论文。这一定很特别，我想。我决定看看。

如果我在专业上审查这篇论文，我会接受这篇论文，但需要做重大修改。这篇论文有足够的贡献，值得发表。但一些声明需要弱化，解释需要澄清，并且需要与基于样条（spline）的神经网络进行比较。

大纲：我对这篇论文提出了四个主要批评：

多层感知机（MLP）也有可学习的激活函数
论文的内容不符合其标题，Kolmogorov-Arnold networks（KANs）
KANs是使用样条基函数作为激活函数的MLP
KANs并没有打破维度灾难

页面：https://vikasdhiman.info/reviews/2024/05/08/review-KAN/

（2024，KAN，MLP，可训练激活函数，样条函数，分层函数）Kolmogorov–Arnold 网络

1. MLP 也有可学习的激活函数

作者在摘要中声称：“虽然 MLP 在节点（“神经元”）上有固定的激活函数，但 KANs 在边（“权重”）上有可学习的激活函数。KANs 根本没有线性权重——每个权重参数都被一个参数化为样条的单变量函数所取代。”

这不是一个有用的描述，因为也可以将 MLP 解释为有 “可学习的激活函数”；这取决于你如何定义“激活函数”。考虑一个两层的 MLP，输入 x ∈ R^n，权重 W1, W2（暂时忽略偏置）和激活函数σ，

如果我定义 ϕ1(x) = σ(W_1·x) 并将 ϕ1(.) 称为激活函数，那么我在 MLP 中有一个可学习的激活函数。与图 0.1 相同，这是一种重新解释，而不是如所声称的那样重新设计 MLP。

2. 标题的意义

KANs 实际如何使用 Kolmogorov-Arnold Theorem（KAT）？该定理在 KANs 的开发中并没有实际作用。KANs 只是受到 KAT 的启发，而不是基于它。

那么 KAT 是什么？论文将其描述为，将任何光滑函数 f : [0, 1]^n → R 分解为有限基函数 ϕ^(2)_ q: R → R 和 ϕ_(q,p) : [0, 1] → R。

如果你打算使用 KAT，你需要理解 KAT 定理的中心论点，以及该定理与最接近的竞争对手通用逼近定理（Universal Approximation Theorem，UAT）有何不同。UAT 表明，任何函数都可以通过足够宽的两层神经网络来逼近。

我以求和的方式写了 MLP，而不是矩阵乘法，以便在 UAT 和 KAT 之间画出相似之处。UAT 和 KAT 之间有两个主要区别：

UAT 处理具有常见激活函数的线性层（如 sigmoid [Cybenko, 1989]、ReLU、tanh），而 KAT 处理任意函数，可能是 “非平滑甚至分形的”。
UAT 可能需要无限的隐藏单元（hidden units）进行精确逼近，而 KAT 只需要 2n+1 个隐藏单元。

我认为 KAT 的中心点在于只需要 2n + 1 个隐藏单元，否则它是一个比 UAT 弱的定理。KAN 论文是否一致使用了 2n + 1 个隐藏单元？没有。但他们通过说以下内容来证明论文的其余部分基于 KAT， “然而，我们对 KAT 在机器学习中的有用性更加乐观。首先，我们不需要坚持只有两层非线性和隐藏层中少量项（2n + 1）的原始公式（2.1）：我们将网络推广到任意宽度和深度。”

好吧。但那我们不就回到了 UAT 了吗？

作者强调了 KAT 的一个方面，“从某种意义上说，他们表明唯一真正的多变量函数是加法，因为每个其他函数都可以使用单变量函数和求和来表示。” 这是一个很酷的解释，但这种解释并不能将 KAT 与已经在 MLP 中使用的 UAT 区分开来。

3. KAN 是具有样条基激活函数的 MLP

实际上，作者最终提出了一个 KAN 残差层，其每个标量函数写为，

什么是样条？【https://personal.math.vt.edu/embree/math5466/lecture10.pdf】对于本节的目的，你不需要了解样条。顺便说一句，一些样条在神经网络中使用的论文 [Bohra et al., 2020, Aziznejad et al., 2020] 没有在 KAN 论文中引用。

现在，假设样条是特定类型基函数 B_i(x) 的线性组合 c_i·B_i(x) 的结果。为了将这个标量函数重新解释为 MLP，让我们重新写成如下，

其中，w 包含样条的可学习参数，一旦样条网格固定，b(x) 是确定的，尽管它可以变得可学习。让我们将其代入（2），

如果我们将 w 视为线性权重，将基函数视为激活函数，这与 MLP 非常接近，有以下几个区别：

激活函数 b() 应用在输入侧，这通常不是 MLP 的一部分。然而，将输入转换为一组特征向量作为预处理步骤，而不是直接提供原始输入给 MLP，是很常见的。
不像（3）中 w^(1)_(p,q) 是标量，(10) 中的 w^(1)_(p,q) 是向量。这不是问题，因为它仍然是通过基函数 b(x) 处理后的输入值的线性组合。为了明确这一点，我们将（10）写成矩阵向量乘法，后跟激活函数。

为了将（10）写成矩阵向量乘积，只考虑第一层项，

你可以重复应用这种解释，

其中，B(x) 与其他激活函数不同。它不是从一个标量产生一个标量，而是为输入中的每个标量值产生 G 个不同的值。

4. 关于 KAN 打破维度灾难的说法是错误的

作者声称，“KAN 具有有限网格大小，可以很好地逼近函数，其残差率与维度无关，因此打破了维度灾难！”

这是一个巨大的声明，需要大量的证据。正如前一节所述，如果所有 KAN 都可以写成 MLP，那么要么 MLP 和 KAN 都打破了维度灾难，要么都没有。

我的第一个反对意见是对 “维度灾难” 的解释。通常，机器学习中的维度灾难是通过训练一个函数达到所需误差所需的数据量来衡量的。

我不理解定理 2.1 的证明，尤其是第一步。不清楚这一结果是如何从 [de Boor, 2001] 中的哪个定理得出的。如果能提供页码或章节那就更好了。

这也违反直觉，因为假定所有 n 个输入维度都有相同的网格大小 G。如果 x 的每个维度被划分为不同的网格大小，界限会是什么样子。

5. 参考文献

[Aziznejad et al., 2020] Aziznejad, S., Gupta, H., Campos, J., and Unser, M. (2020). Deep neural networks with trainable activations and controlled lipschitz constant. IEEE Transactions on Signal Processing, 68:4688–4699.

[Bohra et al., 2020] Bohra, P., Campos, J., Gupta, H., Aziznejad, S., and Unser, M. (2020). Learning activation functions in deep (spline) neural networks. IEEE Open Journal of Signal Processing, 1:295–309.

[Cybenko, 1989] Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of control, signals and systems, 2(4):303–314.

[de Boor, 2001] de Boor, C. (2001). A Practical Guide to Splines. Applied Mathematical Sciences. Springer New York.

[Liu et al., 2024] Liu, Z., Wang, Y., Vaidya, S., Ruehle, F., Halverson, J., Soljaˇci´c, M., Hou, T. Y., and Tegmark, M. (2024). Kan: Kolmogorov-arnold networks. arXiv preprint arXiv:2404.19756.

http://mp.weixin.qq.com/s?__biz=MzkzNjMzNTM4NQ==&mid=2247492071&idx=1&sn=81e4fd932aa44f7e3a91e55dbdbc404a

EDPJ

CV 博士在读。文章搜索：公众号主页右上角放大镜搜关键词。

（2024，VLM，VARP 智能体，动作规划系统，人类引导轨迹系统）VLM 能玩动作类角色扮演游戏吗？以《黑神话悟空》为例

（2024，SNN，Diffusion，SDM，预脉冲残差学习，时间维脉冲机制，无训练阈值引导）脉冲扩散模型

（2024，序列记忆，储层计算，SSM，MIT 学习规则，RNN，输入与读出 FFN）Maelstrom 网络

（2024，GPT-4o，能力、局限性和安全性，语音到语音）系统卡

（2024，ReLU-Transformer，样条，Veronese 映射）注意力机制是平滑的三次样条

（2024，Jamba1.5，ExpertsInt8量化，LLM，激活损失）大规模混合 Transformer-Mamba 模型

（2024，KAN 2.0，MultKAN，kan-piler，树转换器，识别相关特征，揭示模块化结构，发现符号公式）

（2024，Imagen 3 模型卡，定性和定量结果，LDM，Gemini）

（2024，LDM，T2I到T2M，音乐与文本的CLIP对齐，Multi-hot 文本编码，基于多时间分辨率LSTM的自编码器）

（2024|ICLR，∞-Diff，无限维平滑扩散，希尔伯特空间，超分辨率，多尺度架构）具有子采样平滑状态的无限分辨率扩散

（2024，∞-Brush，无限维扩散，希尔伯特空间，超分辨率，跨注意力神经算子，线性注意）具有无限维度扩散模型的可控大图像合成

（2024，LlamaGen，Llama，自回归下一token预测，模型扩展）自回归模型优于扩散：Llama 用于可扩展图像生成

（2024，因果 Diffusion Forcing，扩散，自回归，噪声掩码，多噪声级别）下一 token 预测与全序列扩散

（2024，LoRA 压缩和多LoRA快速切换，联合对角化，重构误差）先压缩再提供服务：以极低的开销为数千个 LoRA提供服务

（2024，缩放定律，信息论，模型大小与数据的线性关系）神经缩放定律的信息论基础

（2024，模型规模vs序列长度，嵌入维度 vs token 数）Transformer 何时可以数到 n？

（2024，通用逼近定理（UAT），函数逼近，Kolmogorov–Arnold定理（KAT），任意深度/宽度的网络逼近）综述

（2021|Nature，深度算子网络（DeepONet），算子的通用逼近定理（UAT），逼近/优化/泛化误差）

（2024，RotRNN，SSM，旋转矩阵，LRU，初始化和归一化）使用旋转对长序列进行建模

（2024，变分 SSM（VSSM），自回归 VSSM，并行训练和生成，VAE）利用变分 SSM 并行化自回归生成

（2024，无分类器引导 CFG，独立条件引导 ICG，时间步引导 TSG）没有训练，没有问题：重新思考用于扩散模型的 CFG

（2024，频域 SSM，SSM 的学习动态，时域递归到频域调制标量乘法）深度 SSM 中的学习动态理论

（2024，测试时训练（TTT）层，线性注意力，RNN，嵌套循环）学习（在测试时学习）：具有表达性隐藏状态的 RNN

（2024，稀疏 MoE，大量小专家，参数高效专家检索 PEER，product key 检索）混合百万专家

（2024）KAN: Kolmogorov–Arnold Networks：评论

（2024，DDPM，DDIM，流匹配，SDE，ODE）扩散：基础教程

（2024，RNN，梯度消失和爆炸，记忆诅咒，重参数化和动态学习率，权重矩阵对角化，复值 RNN）梯度消失和爆炸并不是故事的结局

（2024，稀疏高秩适配器（SHiRA），适配器快速切换和多适配器融合，稀疏掩码，稀疏高秩且正交的适配器，移动场景部署）

（2024，频域 LoRA，DFT，DCT，自适应门控，基于适配器组合的图像编辑）FouRA：傅里叶 LoRA

（2024，Vision-RWKV，线性复杂度双向注意力，四向标记移位）通过类似 RWKV 的架构实现高效且可扩展的视觉感知

（2024，RWKV-CLIP，VLM，表示学习，通道混合和空间混合，基于 LLM 的标题精练）：强大的视觉语言表示学习器

（2021，FastGAN）用于高保真 few-shot 图像合成的更快、更稳定的 GAN 训练

（2022，MoCA）Few-shot 图像生成的原型记忆和注意力机制

（2022，FreGAN）利用频率分量在有限数据下训练 GAN

（2020）高频成分有助于解释卷积神经网络的泛化

（2022，MaskedGAN）掩蔽的生成对抗网络是数据高效生成学习者

（2020，ADA）用有限的数据训练生成对抗网络

（2020，DA）用于数据高效 GAN 训练的可鉴别数据增强（Differentiable Augmentation）

（2021，StyleGAN3）无失真（Alias-Free）生成对抗网络

（2020，StyleGAN2）分析和提高 StyleGAN 的图像质量

（2019, StyleGAN）用于 GAN 的基于样式的生成器架构

（BigGAN）用于高保真自然图像合成的大规模 GAN 训练

在有限数据下正则化生成对抗网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉