【源头活水】一个关于MoE的猜想

科技 2025-01-18 18:01 北京

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注！

本文提出了一个关于如何演进MoE（Mixture of Experts）模型的猜想，主要是在MoE Routing的基础上再套一层，构建The Mixure of Expert Group（MoEG）。文章从代数和范畴论的角度分析了MoE模型的结构和计算过程，并探讨了如何通过两层Routing Gate来优化模型的并行计算和通信效率。

TL;DR

这是一个关于如何演进MoE模型的猜想. 主要是在MoE Routing的基础上再套一层, 构建The Mixure of Expert Group(MoEG), 另一方面是在BIS一些新规出来后,探讨如何进一步用更低的算力,更松耦合的模型架构来适配.

先从MoE谈起

MoE的整个计算过程如下图所示：

从代数的角度来看,MoE计算实际上是对Token进行一次置换群的操作，构成

P为一个进行Token位置置换的稀疏矩阵，实际上也构成了代数上的一个置换群的结构, 而我们再来看Monarch矩阵，两者代数结构上是相通的，Monarch矩阵定义如下

其中是Permutation矩阵，是Block Diagonal矩阵：

而在MoE中，是需要对Token进行还原，保证原有的Token顺序输出到下一层。

对于MoE实现的本质问题是，基于Permutation矩阵后构建的稀疏矩阵乘法如何进行并行

然而MoE有一个天然的缺点, 就是Permutation后的矩阵是一个Block Diagonal.另一方面,BigBird把稀疏性玩到花了，随机Attention，然后又是滑动窗口，再加上Global Attention，好处是这样的稀疏性是有理论保证的，坏处是随机性带来的影响和计算效率的问题.

从范畴论的视角看MoE

对于一个局部小范畴，每个对象包含一个C上的预层：可表示的预层(representable presheaf),实际上也就构成了一个的函子，这些函子构成预层范畴。Yoneda Lemma 这些函子是完全忠实(Fully faithful)的,即任何局部小范畴中的对象都可被对应的预层范畴中的元素表示

问题这不正是我们对基础大模型泛化的要求么? 大模型的预训练的本质不就是构建预层范畴么?

另一方面

而的函子完全忠实的，那么

于是,, 当且仅当它们对应的Hom函子同构。而这个推论来看，我们可以说："对象由它与其他对象之间的关系完全决定"

然而MoE的Block Diagonal矩阵其实本质上是破坏了这样的结构, 使得一些态射被忽视了.

所以期望的方式是构造2级的Routing Gate, 使得本来Attention里面携带的信息通过两个Gate找到矩阵中(x,y)对应的某个Expert,或者多个expert.

Maybe,还可以cross MoEGroup做一些连接. 然后第一层Routing function某种意义上变成了一个Multicast to multiple rows of Experts, 第二层Routing Function Dispatch to some collumn. 然后就构成了

似乎这样又natively构成了一个态射图的结果, 然后对于通信而言,似乎也有不少可以优化的方法.

只是深夜突发奇想, 把它记录下来....

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

收藏，分享、在看，给个三连击呗！

人工智能前沿讲习

领先的人工智能知识平台

【源头活水】NeurIPS 2024 | 超越KL！大连理工提出WKD：基于WD距离的知识蒸馏新方法

【他山之石】ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

【源头活水】DEIM: 在DETR中使用多对一匹配的策略加快收敛

【源头活水】GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

【他山之石】DeepSeek V3论文细节：如何绕开CUDA的垄断！

【他山之石】原来，这些顶级大模型都是蒸馏的

【他山之石】创造历史！DeepSeek超越ChatGPT登顶中美AppStore

【他山之石】全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

【源头活水】2025年Next Token Prediction范式会统一多模态吗？

【他山之石】DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

【源头活水】中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

【他山之石】Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

【他山之石】扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

【他山之石】顶刊TPAMI 2024！北大提出实用、紧致的图像压缩感知网络PCNet，代码已开源

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

【源头活水】近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

【他山之石】重新思考图像超分辨率中的不平衡问题以实现高效推理(nips2024)

【源头活水】一个关于MoE的猜想

【他山之石】TPAMI-2024 | Uni-AdaFocus视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！

纯卷积实现用于图像生成扩散模型？DiC：重新思考扩散模型中的 3×3 卷积

【他山之石】TPAMI 2024 | 倒置金字塔多任务Transformer用于视觉场景理解

【源头活水】NeurIPS 2024 Spotlight | 轻微的预训练数据扰动如何造就更优秀的扩散模型

【他山之石】NIPS 2024 | 注意力掩码和LayerNorm在Transformer中的作用

【他山之石】NeurIPS'24｜新型成员推理方法CLiD：一举破解文生图模型隐私难题

【源头活水】视频任意门来了！港大&达摩院新作VideoAnydoor：向视频无缝传送物体，同时支持准确动作控制

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

AAAI 2025 | SparseViT：以非语义为中心、参数高效的稀疏化视觉Transformer

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

【他山之石】AAAI 2025 | IML领域首个稀疏化视觉Transformer，代码已开源

【源头活水】人工智能是不是走错了方向？

【源头活水】OpenAI奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

【源头活水】数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

【他山之石】AAAI 2025｜腾讯优图实验室10篇论文入选，含大型语言模型、深度伪造检测等研究方向

【源头活水】聊一聊大模型六小虎和四大厂的2024！

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

【他山之石】国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

【源头活水】AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

【源头活水】首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉