CartesianMoE：通过笛卡尔积路由提升专家间的知识共享

文摘 2024-10-25 10:55 日本

大型语言模型（LLM）因其在下游任务中的优异表现备受关注。尽管扩展LLM可以提高其能力，但计算复杂性也随之增加。专家混合（MoE）模型通过扩大规模而不显著增加成本来缓解这一问题，但MoE模型的专家之间面临知识共享的挑战。为了解决这个问题，先前的工作提出以“相加”的方式实现知识共享，本文受到协同矩阵分解的启发提出了CartesianMoE，通过“相乘”的方式更有效地共享知识，实验结果显示其在困惑度、下游任务性能及路由鲁棒性方面优于现有MoE模型。

作者：苏振鹏
机构：中国科学院信息工程研究所
Arxiv：https://arxiv.org/abs/2410.16077

方法介绍

先前的共享专家的方式常通过“相加”的方式实现。例如，有一个共享专家，和几个可路由专家，专家的知识共享可以表示为，，。

受到协同矩阵分解的启发，提出通过“相乘”的方式实现专家的知识共享，即，，。实现上，定义两个MoE子专家集合，和。将每个专家设计为分别来自上述两个集合的子专家组合。例如，或。

换言之，所有专家都可以通过两个子专家集合的笛卡尔积来导出，因此该方法称之为CartesianMoE。具体来说，CartesianMoE将传统的MoE层替换为一个笛卡尔积层，如图1所示，该层由两个顺序的MoE子层组成，每个子层表示一组子专家，且每个MoE子层都具有各自的router。

实验结果

主要实验结果和分析

评估CartesianMoE和其它MoE模型，在Pile验证集的PPL和在常用benchmarks的性能。如表1和表2所示，在MoE-Base和MoE-Large两个设置下，CartesianMoE不仅能在Pile验证集上具有更低的PPL，在benchmarks上的表现也同样亮眼。

认为CartesianMoE的优势来自于其专家之间更细粒度的知识共享。具体来说，“相加”的方式是通过一个固定激活的专家，实现对全局的知识共享，相比之下，CartesianMoE将专家分成小组，允许每个小组共享一些组内知识。例如专家FFN 和 FFN可以实现对子专家 FFN的知识共享，类似的专家FFN 和 FFN可以实现对子专家FFN的共享。值得注意的是，CartesianMoE也装备了“相加”的方式的共享专家，以实现一个“全局知识共享+分组知识共享”的MoE系统。

移除全局共享专家

如表3所示，在移除全局共享专家的情况下，CartesianMoE的表现仍然优于全局的共享专家方式（表中Fine-grained Routing）。这证明了按组的知识共享与全局知识共享同等重要。同时具有分组知识共享以及全局共享专家的模型是最好的，这证明了“全局知识共享+分组知识共享”MoE系统的有效性。

路由鲁棒性分析

在Pile验证集上，禁用每个token的最高路由概率专家，然后从剩余专家中选择前K个专家，评估由此带来的PPL（困惑度）变化。如表4所示，即使禁用最高路由概率专家，CartesianMoE仍表现出最低的PPL。由此可以见，CartesianMoE具有更强的路由鲁棒性。

使用更多的算力训练模型

上述的实验仅用100B Tokens训练了最大2.88B总参数的MoE-Large模型。为了探索CartesianMoE在更多训练算力下的性能。分别在MoE-Large和一个总参数量7.25B，激活参数1.61B的更大尺度模型上进行训练，训练的总Tokens量为400B。如表5所示，使用更多的算力训练模型，CartesianMoE仍然优于Fine-grained Routing策略（带全局的共享专家）。该实验结果进一步证明了CartesianMoE的优越性和可扩展性。

还在图2和图3进一步给出了整个预训练过程中模型在benchmarks上的性能，在大部分benchmarks上，CartesianMoE始终表现出了更强的性能。

写在最后

本文受协同矩阵分解方法的启发，提出了CartesianMoE，一种在MoE模型中以“乘法”方式进行知识共享的方法。该模型将细粒度子专家划分为两个不同的集合，通过其笛卡尔积构建专家，从而促进组内的知识共享。相比已有的共享专家模型，CartesianMoE构建了一个更全面的知识共享系统，即“全局共享知识 + 组内共享知识 + 专家特有知识”。大量实验表明，CartesianMoE在语言建模困惑度和下游任务表现方面均优于现有的MoE模型，并因其增强的知识共享机制，在路由鲁棒性上也有显著提升。

计划在近期发布一个通过2T Tokens训练的7.25B模型，欢迎保持关注！

PS：看到这里，如果觉得不错，可以来个点赞、在看、关注。给公众号添加【星标⭐️】不迷路！您的支持是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！

http://mp.weixin.qq.com/s?__biz=Mzg5MTU1NTE1OQ==&mid=2247490638&idx=1&sn=836742651a7d921aafafb6cb93f4c4e4

NLP工作站

日常分享AIGC前沿知识&落地经验总结，也欢迎关注《ChatGPT原理与实战》、《大型语言模型实战指南》两本大模型相关书籍

最新文章

LLM实践系列-从零开始预训练1B级别大模型的心路历程

也许是2024年最值得一去的大模型国内年会！

LLM实践系列—大模型的拒绝采样2

实测腾讯开源的Hunyuan-Large大模型，感觉。。。

LLM实践系列-昇腾910B上进行Qwen2.5推理

LLM实践系列-细聊LLM的拒绝采样

面向中文有害表情包（meme）的综合性检测

OpenAI-O1之下，我们技术该何去何从

CartesianMoE：通过笛卡尔积路由提升专家间的知识共享

LLM实践系列-拯救Continue Pretrain的数据

超全！一文详解大型语言模型的11种微调方法

LLM实践系列-详谈Tokenizer训练细节

LLM实践系列-数据去重之Simhash&Minhash分析与实现

CodePMP：提升LLM推理能力的可扩展偏好模型预训练

全是细节 | 聊一聊做SFT的经验

Llama3.2开源：Meta发布1B和3B端侧模型、11B和90B多模态模型

长文 | Reverse-o1：OpenAI o1原理逆向工程图解

全是细节 | 聊一聊做Pretrain的经验

Quest：一种以查询为中心的长文本数据合成方法

如何提升角色扮演大模型的拟人能力？

Qwen2.5系列模型开源，你值得拥有！！！

长文 | 探索基于RL的新LLM scaling范式

大模型千卡训练-经验指北

浅谈OpenAI o1的价值意义及RL 的Scaling Law

六个问题带你看懂什么是理工科学霸-OpenAI o1！

大型语言模型实战指南

大模型论文淘金

DPO，RM，RLHF 傻傻分不清楚

如何获取高质量数据进行代码指令调优？

浅谈大模型角色扮演：从当红炸子鸡到无人问津

将端侧大模型进行到底-MiniCPM3-4B开源

Qwen2-VL：Qwen系列已在开源的路上一骑绝尘

大模型微调终极指南

这段时间搞大模型的血和泪

综述 | 大模型的可控文本生成

大模型是泡沫吗？

大模型 VS 小模型

探讨大模型预训练与微调之间的相互作用

大模型时代，什么样的算法工程师更吃香？

没有等来Qwen2.5，但等来了Qwen2-Math

浅谈-领域模型训练

大模型微调到底有没有技术含量？

MOE系列模型-浅谈

大模型预训练开源数据集-整理

一大堆Llama3.1-Chinese正在袭来

浅谈Llama3.1，从结构、训练过程、影响到数据合成

Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

RegMix-用回归任务解决大模型数据混合问题

开源真卷！Google开源Gemma 2大模型

让AI应用成为你的创意游乐场 - 快速搭建AI应用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉