首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

MoE「现形记」：训练时按需使用，推理时全员出动？

旅行 2024-11-17 11:00 北京

MoE，你变了！

Georgia Tech的博士生Vima Gupta最近在Twitter上抛出了一个重磅结论：MoE（Mixture of Experts）模型在实际应用中的表现，和它的设计初衷完全不一样！

大家都知道，MoE模型号称是「按需激活专家参数」的效率之王。

但Vima的研究揭示了一个尴尬的现实：在实际服务中，批处理16个请求就会导致所有专家被激活。

这不就是「全员出动」吗？

效率呢？

省钱呢？

Vima深入挖掘后发现，MoE模型在预填充（prefill）和解码（decode）阶段的行为大不相同：

预填充阶段：增加专家数量对延迟几乎没影响，因为计算掩盖了内存访问的开销。
解码阶段：延迟随专家数量线性增长，完全陷入了内存访问的泥潭。

为什么会这样？

Vima给出了一个令人意外的解释：这是批处理导致的「意外」。

左图显示，在训练时，MoE模型确保了专家使用的均匀性。但右图揭示，在实际生产环境中，专家激活出现了极度偏斜。

这不是bug，而是批处理多样化请求导致的涌现行为。

更有意思的是，MoE模型在预填充和解码阶段的表现判若两人：

预填充：稍微改变专家路由，模型就会「抓狂」。
解码：对专家选择意外地「淡定」。

这种反差让研究人员大开眼界。

但故事还没完！

Vima他们还发现了MoE模型的另一个有趣特性：

专家选择存在明显的层级关系，第一选择的专家承担了大部分工作。

这种模式在不同的MoE模型中普遍存在，不禁让人思考：这是否是MoE架构的固有特性？

面对这些问题，Vima和她的团队没有就此放手，而是开发了一个名为Lynx的系统：

Lynx能在解码阶段动态选择专家，实现了1.5倍的速度提升。它巧妙地在保留关键路由决策和优化延迟之间找到了平衡点。

该研究不仅揭示了MoE模型的「双面人生」，还为提高其实际应用效率提供了新思路。Vima和她的团队在arXiv上发表的论文详细介绍了Lynx系统，相关代码也即将开源。

从MoE 的这次「现形记」中可以看到，AI模型从实验室走向现实的道路，总是充满意外和挑战。

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453457050&idx=1&sn=771fd06134044edf60d2b10932a90157

关注AGI 的沿途风景！

最新文章

200M 模型 SOTA 开源图像细节描述！

李开复的01.ai 用3百万造出GPT-4级对手！

AI奶奶专治电信诈骗：40分钟废话连篇，骗子气到爆粗口！

Grok 3 因证明「黎曼假设」而被暂停训练？！

NEO 重磅问世：第一位「全能」机器学习AI工程师！

MoE「现形记」：训练时按需使用，推理时全员出动？

llms.txt：AI时代的robots.txt！

llama-ocr 登顶Hacker News！

AGI 定义之争：DeepMind vs OpenAI vs Anthropic

走近科学之，17岁高中生的“神级Prompt”

来了！ChatGPT 推出桌面级编程助手！

Anthropic推出Claude 智能改进器，「一键优化」你的AI提示词！

谍战！OpenAI 派飞机侦查马斯克xAI 超算中心

重磅！OpenAI「Operator」明年一月发布！

LeCun被指剽窃！Marcus怒斥：我要告你！

重磅！马斯克或将影响特朗普新政府的AI监管政策

Hinton：别学AI，去当水管工吧！

软体机器人的「超级肌肉」来了：力举千倍重物，柔软如肌肤

Ilya Sutskever：预训练已到瓶颈！

Sam Altman的Worldcoin：用眼睛换币，84%人亏损！

重磅！OpenAI前CTO Murati新团队初具规模！挖角OpenAI成功？

独家解密！Lex Fridman与Anthropic CEO 5小时长谈：Claude 4.0、AGI 2026年或将到来！

再见GPT！你好，「o」！

重磅！AlphaFold 3 终于开源了！

AGI 何时到来？Sam Altman、Dario Amodei、Geoffrey Hinton、Yann LeCun 的时间表

MobA：让AI 真正学会使用手机！

大模型进入瓶颈期，Gary Marcus：我赢了！

OpenAI 新模型Orion 或难产！

Sora 两周内发布！

狂飙！ChatGPT跃升至全球第八大网站！

SpaceX「火星互联网」计划曝光：每秒千万亿比特的星际通信！

惊人发现：LLM模型一半的注意力层是多余的！

重磅！OpenAI迎版权诉讼重大胜利！

Stack Overflow 2024 调查报告出炉：Python将统治编程世界！

重磅！亚马逊欲增资Anthropic：条件是使用自家芯片！

Sam Altman：千日内迎来超级AI，人类将步入丰裕时代

如何使用纯GPT-2解码器进行OCR？

AI艺术之超现实水果！

谷歌研究员François Chollet：AI并非真正的智能，而是一种高级插值

Lepton AI携手DigitalOcean，将大规模GPU稳定性提升至99.5%

AI 逃离人类禁锢的最小规则集是什么？

AI 正在控制你的电脑！

微软AI 部门CEO：自我改进AI 将在5年内实现，人类即将迎来奇点时代！

Perplexity 正以 90 亿美元估值寻求融资！

扎克伯格的核能计划被一群小蜜蜂拦腰斩断了！

特朗普当选，OpenAI将如何应对马斯克？

「Sparks of AGI」作者加入OpenAI，或将推进端侧AGI?

马斯克的Grok API 编程能力大超预期！

ScrapeGraphAI：让自然语言驱动的网页爬虫！

Docling：企业级多格式文档转换的开源工具！

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉