晋升业内新宠儿，MoE模型给了AI行业两条关键出路

文摘 2024-07-19 19:12 湖南

MoE模型火爆的背后：全新的AI解题思路

文 | 智能相对论

作者 | 陈泊丞

今年以来，MoE模型成了AI行业的新宠儿。

一方面，越来越多的厂商在自家的闭源模型上采用了MoE架构。在海外，OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型都采用了MoE架构。

而在国内，昆仑万维推出的天工3.0、浪潮信息发布的源2.0-M32、通义千问团队发布的Qwen1.5-MoE-A2.7B、MiniMax全量发布的abab6、幻方量化旗下的DeepSeek发布的DeepSeek-MoE 16B等等也都属于MoE模型。

另一方面，在MoE模型被广泛应用的同时，也有部分厂商争先开源了自家的MoE模型。前不久，昆仑万维宣布开源2千亿参数的Skywork-MoE。而在此之前，浪潮信息的源2.0-M32、DeepSeek的DeepSeek-MoE 16B等，也都纷纷开源。

为什么MoE模型如此火爆，备受各大厂商的青睐？在开源的背后，MoE模型又是以什么样的优势使各大主流厂商成为其拥趸，试图作为改变AI行业的利器？

MoE模型火爆的背后：

全新的AI解题思路

客观来说，MoE模型的具体工作原理更接近中国的一句古语“术业有专攻”，通过把任务分门别类，然后分给多个特定的“专家”进行解决。

它的工作流程大致如此，首先数据会被分割为多个区块（token），然后通过门控网络技术（Gating Network）再把每组数据分配到特定的专家模型（Experts）进行处理，也就是让专业的人处理专业的事，最终汇总所有专家的处理结果，根据关联性加权输出答案。

当然，这只是一个大致的思路，关于门控网络的位置、模型、专家数量、以及MoE与Transformer架构的具体结合方案，各家方案都不尽相同，也逐渐成为各家竞争的方向——谁的算法更优，便能在这个流程上拉开MoE模型之间的差距。

像浪潮信息就提出了基于注意力机制的门控网络（Attention Router），这种算法结构的亮点在于可以通过局部过滤增强的注意力机制（LFA, Localized Filtering-based Attention），率先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确，从而更好地匹配专家模型，保证了专家之间协同处理数据的水平，促使模型精度得以提升。

基于注意力机制的门控网络（Attention Router）

抛开目前各家厂商在算法结构上的创新与优化不谈，MoE模型这种工作思路本身所带来的性能提升就非常显著——通过细粒度的数据分割和专家匹配，从而实现了更高的专家专业化和知识覆盖。

这使得MoE模型在处理处理复杂任务时能够更准确地捕捉和利用相关知识，提高了模型的性能和适用范围。因此，「智能相对论」尝试了去体验天工3.0加持的AI搜索，就发现对于用户较为笼统的问题，AI居然可以快速的完成拆解，并给出多个项目参数的详细对比，属实是强大。

天工AI搜索提问“对比一下小米su7和特斯拉model3”所得出的结果

由此我们可以看到，AI在对比两款车型的过程中，巧妙地将这一问题拆解成了续航里程、动力性能、外观设计、内饰设计、智能化与自动驾驶、市场表现与用户口碑、价格等多个项目，分别处理得出较为完整且专业的答案。

这便是“术业有专攻”的优势——MoE模型之所以受到越来越多厂商的关注，首要的关键就在于其所带来的全新解决问题的思路促使模型的性能得到了较为显著的提高。特别是伴随着行业复杂问题的涌现，这一优势将使得MoE模型得到更广泛的应用。

各大厂商争先开源MoE模型：

解决AI算力荒的另一条路径

开源的意义在于让MoE模型更好的普及。那么，对于市场而言，为什么要选择MoE模型？

抛开性能来说，MoE模型更突出的一点优势则在于算力效率的提升。

DeepSeek-MoE 16B在保持与7B参数规模模型相当的性能的同时，只需要大约40%的计算量。而37亿参数的源2.0-M32在取得与700亿参数LLaMA3相当性能水平的同时，所消耗的算力也仅为LLaMA3的1/19。

也就意味着，同样的智能水平，MoE模型可以用更少的计算量和内存需求来实现。这得益于MoE模型在应用中并非要完全激活所有专家网络，而只需要激活部分专家网络就可以解决相关问题，很好避免了过去“杀鸡用牛刀”的尴尬局面。

举个例子，尽管DeepSeek-MoE 16B的总参数量为16.4B，但每次推理只激活约2.8B的参数。与此同时，它的部署成本较低，可以在单卡40G GPU上进行部署，这使得它在实际应用中更加轻量化、灵活且经济。

在当前算力资源越来越紧张的“算力荒”局面下，MoE模型的出现和应用可以说为行业提供了一个较为现实且理想的解决方案。

更值得一提的是，MoE模型还可以轻松扩展到成百上千个专家，使得模型容量极大增加，同时也允许在大型分布式系统上进行并行计算。由于各个专家只负责一部分数据处理，因此在保持模型性能的同时，又能显著降低了单个节点的内存和计算需求。

如此一来，AI能力的普惠便有了非常可行的路径。这样的特性再加上厂商开源，将促使更多中小企业不需要重复投入大模型研发以及花费过多算力资源的情况下便能接入AI大模型，获取相关的AI能力，促进技术普及和行业创新。

当然，在这个过程中，MoE模型厂商们在为市场提供开源技术的同时，也有机会吸引更多企业转化成为付费用户，进而走通商业化路径。毕竟，MoE模型的优势摆在眼前，接下来或许将有更多的企业斗都会尝试新的架构来拓展AI能力，越早开源越能吸引更多市场主体接触并参与其中。

但是，开源最关键的优势还是在于MoE模型对当前算力问题的解决。或许，随着MoE模型被越来越多的企业所接受并应用，行业在获得相应AI能力的同时也不必困顿于算力资源紧张的问题了。

写在最后

MoE大模型作为当前人工智能领域的技术热点，其独特的架构和卓越的性能为人工智能的发展带来了新的机遇。不管是应用还是开源，随着技术的不断进步和应用场景的不断拓展，MoE大模型有望在更多领域发挥巨大的潜力。

MoE模型的本质在于为AI行业的发展提供了两条思路，一是解决应用上的性能问题，让AI有了更强大的解题思路。二是解决算力上的欠缺问题，让AI有了更全面的发展空间。由此来看MoE模型能成为行业各大厂商的宠儿，也是水到渠成的事情。

*本文图片均来源于网络

深挖智能这口井，同好添加vx：zhinengxdl

此内容为【智能相对论】原创，

仅代表个人观点，未经授权，任何人不得以任何方式使用，包括转载、摘编、复制或建立镜像。

部分图片来自网络，且未核实版权归属，不作为商业用途，如有侵犯，请作者与我们联系。

智能相对论同频视频号

【艾一叨】聚焦最前沿的云与AI服务、智能硬件与汽车

▲期待关注▼

往期推荐

行业唯一！三翼鸟场景品牌战略推动价值凸显

别肤浅了，“智能汽车”远不止你想的那样

产业升级视角下，数字“新动能”有了正确打开方式

重工遗存焕发新机，数字创意产业进入“大基建”时代

http://mp.weixin.qq.com/s?__biz=MzkyMTYwNzk2MA==&mid=2247512960&idx=2&sn=365d7390e5b6e1dd13c232dc59a526c4

智能相对论

智能的硬件、智能的车、智能的技术与服务，边评边测

最新文章

和父母同住的年轻人，正在把智能门锁装在卧室

益智健康的“八段锦”，与日拱一卒的云游戏技术创新

MLPerf Storage揭榜，「存储」挂帅，驱动AI上演“飞驰人生”

年轻人爱上“迷你白电”，但却不是用来“干正事”

社恐的当代年轻人，迷上了跟AI唠嗑

当代打工人，竟都在争相“雇佣”人工智能？

网络晋升第一生产力，在数智化时代园区网络如何快人一步？

讯飞星火与昇腾AI双向奔赴：本土化技术创新应对全球化挑战的一次成功验证

浪潮信息发布元脑企智EPAI一体机，大模型开发还能再抢快几步

在边缘共行者计划的高纬进击中，浪潮信息拉开边缘智算的时代大幕

“天翼云息壤杯”高校AI大赛开启：国云的一场“造林”计划

数智化引领传媒新变革，又一场技术的盛宴！

鲲鹏产业生态5年，神州鲲泰一路生花的进击

闯入清洁家电“诸神之战”的萤石，凭什么立足？

又是一年岳麓峰会论道！长沙计算再“拔尖”走向智算时代

这一届“出道”的数字人，已经拿捧上了“铁饭碗”

从默默无名到销量激增，极越CEO哭了

“网红”云南人，用5G网络统治互联网

尖山有多尖长沙有多长

中年“夹心人”，用电视缓解“精神内耗”

“易碎”的留守农村人，都在被AI智能监控“兜住”

2024云服务大战的战火，在AI的风口下烧到了经济领域

奥运科技观察：AI PC，如何成为当代体育精神的数字捍卫者？

这个品牌稳居第一的背后：得用户者得天下

人工智能的“过弯点”，三驾马车已经全面调整了姿态

三年奋进，长沙县高质量发展再造“星”标杆

苹果AI的国产大模型之争，没有悬念

掉队的百度，突然用AI应用重新杀回？

不止于“薄”，海信电视A7N“超薄没短板”

晋升业内新宠儿，MoE模型给了AI行业两条关键出路

CPU，正在被 AI 时代抛弃？

智驾内卷“全国都能开”，原来极越才是黑马

越来越卷的康养行业，靠什么才能真正历久弥新？

咖啡消费旺季到来为何想转让的库迪联营商却越来越多

大模型产品的“命名经济学”：名字越简单，产品越火爆？

数字内容“遍地开花”，AI技术如何创新“造梦”？

行业唯一！三翼鸟场景品牌战略推动价值凸显

别肤浅了，“智能汽车”远不止你想的那样

极越销量一小步，智驾普及一大步

携手一起，寻找深埋数亿年的石油宝藏

产业升级视角下，数字“新动能”有了正确打开方式

MoE模型大火，源2.0-M32诠释“三个臭皮匠，顶个诸葛亮”！

买车是小米su7还是model3？这个AI在我这里“干掉了”百万车评人

重工遗存焕发新机，数字创意产业进入“大基建”时代

AGI时代，AI软着陆的新范式注定属于更多的企业

为“鲜活水”冠上标准，海尔净水的底气何在？

“胖猫”背后的单身男青年们，还在被AI手机“性别歧视”？

云商店如何让更多企业摘到技术普惠的“果实”？

大模型争霸的下一站：不仅是超越GPT-4，更是寻求模型之间的平衡应用

海尔智家：消费者掌握着以旧换新的主动权

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉