腾讯算出MoE模型Scaling Law：C≈9.59ND+2.3×10⁸D，最佳激活参数量58.1B

科技 2024-11-06 12:17 北京

梦晨发自凹非寺
量子位 | 公众号 QbitAI

腾讯拿出看家本领，来挤开源赛道，突然发布了市面上最大的开源MoE模型。

Hunyuan-Large，3890亿总参数，520亿激活参数。

跑分超过Llama 3.1 405B等开源旗舰，上下文长度支持也高出一档来到256k。

虽然Hunyuan-Large还不算腾讯内部的旗舰模型，但腾讯介绍底层技术与混元大模型“同宗同源”：

很多细节都是内部业务打磨好再开源出来的，比如用到了腾讯元宝App的AI长文阅读等功能里。

现在这样的一个模型彻底开源，免费可商用，算是很有诚意了。

这次腾讯Hunyuan-Large总共开源了三个版本：预训练模型、微调模型、FP8量化的微调模型。

在开源社区掀起一阵热议，HuggingFace首席科学家Thomas Wolf墙裂推荐并总结了几个亮点。

数学能力很强
用了很多精心制作的合成数据
深入探索了MoE训练，使用共享专家、总结了MoE的Scaling Law。

各路开发者中，有立马开始下载部署的动手派，也有人希望腾讯入局后，开源模型卷起来能迫使Meta造出更好的模型。

这次腾讯同步发布了技术报告，其中很多技术细节也引起讨论。

如计算了MoE的Scaling Law公式，C ≈ 9.59ND + 2.3 ×10⁸D。

又比如用交叉层注意力节省KV缓存的内存占用。

下面送上发布会现场演讲和技术报告精华内容总结。

Hunyuan-Large技术报告

MoE的Scaling Law

直接上公式：

C ≈ 9.59ND + 2.3 × 10⁸D

其中C表示计算预算（单位FLOPs），N表示激活参数数量，D表示训练数据量（单位tokens）。

与传统密集模型的计算预算公式C=6ND相比，MoE模型公式的差异主要体现在两个方面：

一是系数从6增加到9.59，反映了MoE额外的路由计算开销，包含专家切换的计算成本。

二是增加了常数项2.3×10⁸D，反映了长序列MoE模型attention计算的额外开销。

为了确定最优激活参数量，团队投入大量成本展开实验：

训练一系列激活参数范围从10M到1B的模型，使用最高1000亿tokens的训练数据，覆盖100亿到1000亿tokens的不同数据规模。

使用isoFLOPs曲线，在固定计算预算下寻找最优点，同时考虑实际训练batch size的影响，分析不同参数量和数据量的组合，计算得出最优激活参数量约为58.1B。

而最终Hunyuan-Large选择了52B的激活参数量，主要考虑到最优点附近曲线平滑，在58.1B附近有较大容差空间，以及计算资源约束、训练稳定性要求和部署效率平衡等实践因素。

路由和训练策略

除了揭秘最优参数配比，技术报告中还详解了Hunyuan-Large独特的”MoE心法”。‍

混合路由策略：

Hunyuan-Large采用共享专家（shared expert）和特殊专家（specialized experts）相结合的混合路由。

每个token激活1个共享专家和1个专门专家，共享专家处理所有token的通用知识，而特殊专家则用top-k路由策略动态激活，负责处理任务相关的特殊能力。‍

回收路由策略：

传统MoE常因专家超载而丢弃过多tokens。Hunyuan-Large设计了专家回收机制，保持相对均衡的负载，充分利用训练数据，保证模型的训练稳定性和收敛速度。

专家特定学习率适配策略：

不同专家承载的tokens差异巨大，应设定不同学习率，如共享专家使用较大的学习率，确保每个子模型有效地从数据中学习并有助于整体性能。

高质量合成数据

混元团队开发了一套完整的高质量数据合成流程，主要包括四个步骤：指令生成、指令进化、回答生成和回答过滤。

在指令生成阶段，混元团队使用高质量的数据源作为种子，覆盖多个领域和不同复杂度，确保指令的多样性和全面性。

接下来是指令演化阶段，通过提升指令的清晰度和信息量，扩充低资源领域的指令，并逐步提升指令的难度，使得指令更加丰富、精准和具有挑战性。

在回答生成阶段，混元团队采用专门的模型针对不同领域生成专业的答案。这些模型在规模和设计上各有不同，以确保生成的回答能够满足不同领域的要求。

最后是回答过滤阶段，混元团队采用critique模型对生成的回答进行质量评估，并进行自一致性检查，以确保输出的答案是高质量的。

通过这四步合成流程，混元团队能够生成大量高质量、多样化的指令-回答数据对，为MoE模型的训练提供了丰富、优质的数据支持。

这种数据合成方法不仅提高了模型的训练效率，也极大地促进了模型在多种下游任务上的表现。

长文能力优化

为了实现强大的长文本处理能力，混元团队在训练过程中采用了多项策略。

首先是分阶段训练，第一阶段处理32K tokens的文本，第二阶段将文本长度扩展至256K tokens。在每个阶段，都使用约100亿tokens的训练数据，确保模型能够充分学习和适应不同长度的文本。

在训练数据的选择上，25%为自然长文本，如书籍、代码等，以提供真实的长文本样本；其余75%为普通长度的数据。这种数据组合策略确保了模型在获得长文理解能力的同时，也能保持在普通长度文本上的基础处理能力。

此外，为了更好地处理超长序列中的位置信息，混元团队对位置编码进行了优化。他们采用了RoPE位置编码方法，并在256K tokens阶段将base frequency扩展到10亿。这种优化方式能够有效地处理超长序列中的位置信息，提升模型对长文本的理解和生成能力。

除了在公开数据集上进行评测，混元团队还开发了一个名为”企鹅卷轴”的长文本评测数据集。

“企鹅卷轴”包含四个主要任务：信息抽取、信息定位、定性分析和数值推理。

不同于现有的长文本基准测试，”企鹅卷轴”有以下几个优势：

数据多样性：”企鹅卷轴”包含了各种真实场景下的长文本，如财务报告、法律文档、学术论文等，最长可达128K tokens。
任务全面性：数据集涵盖了多个难度层次的任务，构建了一个全面的长文本处理能力分类体系。
对话数据：引入了多轮对话数据，模拟真实的长文本问答场景。
多语言支持：提供中英双语数据，满足多语言应用需求。

推理加速优化

为了进一步提升Hunyuan-Large的推理效率，混元团队采用了多种优化技术，其中最关键的是KV Cache压缩。

主要结合了两种方法：GQA（Grouped-Query Attention）和CLA（Cross-Layer Attention）。

GQA通过设置8个KV head组，压缩了head维度的KV cache；而CLA则通过每2层共享KV cache，压缩了层维度的内存占用。

通过这两种策略的组合，混元MoE模型的KV cache内存占用降低了约95%，而模型性能基本保持不变。这种显著的内存优化不仅大幅提升了推理效率，也使得模型更易于部署，适配各种实际应用场景。

后训练优化

预训练的基础上，混元团队采用了两阶段的后训练策略，包括监督微调（SFT）和人类反馈强化学习（RLHF），以进一步提升模型在关键领域的能力和人类对齐程度。

在SFT阶段，混元团队使用了超过100万条高质量数据，覆盖了包括数学、推理、问答、编程等多个关键能力领域。为了确保数据的高质量，团队采用了多重质量控制措施，包括规则筛选、模型筛选和人工审核。整个SFT过程分为3轮，学习率从2e-5衰减到2e-6，以充分利用数据，同时避免过拟合。

在RLHF阶段，混元团队主要采用了两阶段离线和在线DPO结合。离线训练使用预先构建的人类偏好数据集，以增强可控性；在线训练则利用当前策略模型生成多个回复，并用奖励模型选出最佳回复，以提高模型的泛化能力。

同时，他们还使用了指数滑动平均策略，缓解了reward hacking问题，确保了训练过程的平稳和收敛。

One More Thing

在发布会现场，腾讯混元大模型算法负责人康战辉还透露，Hunyuan-Large之后，还会考虑逐步开源中小型号的模型，适应个人开发者、边缘侧开发者的需求。

另外腾讯同期开源的3D大模型可移步这里了解。

官网：
https://llm.hunyuan.tencent.com/
Github地址：
https://github.com/Tencent/Tencent-Hunyuan-Large
Hugging Face 地址：
https://huggingface.co/tencent/Tencent-Hunyuan-Large

参考链接：
[1]https://x.com/Thom_Wolf/status/1853694513585303771

— 完 —

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247756846&idx=1&sn=9c21c2c24f5d9dabc70e5c2b69737d09

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

摩尔线程冲刺IPO：国产GPU，英伟达中国一把手打造，估值已超255亿

OpenAI总裁回归！将更专注重大技术挑战，“结束人生最长假期”

小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

最强开源CodeLLM模型深夜来袭！320亿参数，Qwen2.5-Coder新模型超越GPT-4o

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

o1不是唯一路径！MIT新研究：在测试时训练，模型推理能力最高升至5.8倍

开源版SearchGPT来了，两张3090就可复现，超越Perplexity付费版

最后4天！2024人工智能年度评选，AI时代的行业先锋就等你来

诺奖AI成果开源了！AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

0元起步打造你的AI搜索！实测秘塔知识库新功能，竟能指导我升职加薪了

浙大开源“最懂Excel的GPT”！首次将结构化数据作为独立模态训练，刷榜提升40百分点

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准，大模型正确率通通不足2%

树莓派爆改国际象棋，棋子活了自己动

用LLM一键生成百万级领域知识图谱！中科大新框架入选ACL 2024

最后5天！2024人工智能年度评选，AI时代的行业先锋就等你来

GPT-5被曝不及预期，OpenAI员工：没什么科学突破了，接下来只需要工程

AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

多模态模型免微调接入互联网，即插即用新框架，效果超闭源商用方案

最后一周！2024人工智能年度评选，AI时代的行业先锋就等你来

OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

全球首个法律o1大模型发布，System2范式下慢思考法律专家｜港科大&北大

清华厦大等提出“无限长上下文”技术，100万大海捞针全绿，Llama\Qwen\MiniCPM都能上分

国产AI可以拍微电影了！4K、60帧高清画质，自带音效

蚂蚁集团前端技术团队分享：AI 浪潮下，前端开发将迎来怎样的机遇与变革？

AI蛋白质诺奖后再登Nature，第一性原理级精度，微软亚研院4年之作

一个弹窗整懵Claude，瞬间玩不转电脑了 | 斯坦福&港大新研究

评估大模型不看输出看「内在」，上交大新测试指标入选NeurIPS 2024

最后两周！2024人工智能年度评选，AI时代的行业先锋就等你来

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

鸿蒙的“AI野望”：让AI融入操作系统，数亿补贴寻应用开发者

首批嘉宾定了，李开复周志华都要来！MEET2025智能未来大会报名通道已开启

我在淘天做算法：十年拍立淘，一部视觉算法技术演变史

免训练加速DiT！Meta提出自适应缓存新方法，视频生成快2.6倍

50s完成7B模型量化，4bit达到新SOTA，大模型低比特量化有新招了 | NeurIPS 2024 Oral

李开复和周志华都来了，MEET2025智能未来大会报名正式启动！

登顶的小熊猫模型出AI产品了！3步10秒出一张海报，可免费商用

大模型重构生命科学！最大基础模型面世，解锁DNA超长序列，参数规模达2100亿

最高精度1公里*1公里*1小时！达摩院发布气象大模型，大山东已经在用了

GPT-4o加钱能变快！新功能7秒完成原先23秒的任务

零一万物战略骤转！国内聚焦toB，toC先走海外

轻松搭建AI版“谁是卧底”游戏，muAgent框架让知识图谱秒变编排引擎，支持复杂推理+在线协同

最后两周！2024人工智能年度评选，AI时代的行业先锋就等你来

腾讯算出MoE模型Scaling Law：C≈9.59ND+2.3×10⁸D，最佳激活参数量58.1B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

腾讯算出MoE模型Scaling Law：C≈9.59ND+2.3×10⁸D，最佳激活参数量58.1B

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

Hunyuan-Large技术报告

MoE的Scaling Law

路由和训练策略

高质量合成数据

长文能力优化

推理加速优化

后训练优化

One More Thing

梦晨发自凹非寺
量子位 | 公众号 QbitAI