腾讯混元又来开源，一出手就是最大MoE大模型

科技 2024-11-06 14:38 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

随着人工智能技术的快速发展，大型语言模型（LLMs）在自然语言处理、计算机视觉和科学任务等领域取得了显著进展。然而，随着模型规模的扩大，如何在保持高性能的同时优化资源消耗成为关键挑战。为了应对这一挑战，腾讯混元团队率先采用混合专家（MoE）模型架构，最新发布的 Hunyuan-Large（Hunyuan-MoE-A52B）模型，是目前业界已经开源的基于 Transformer 的最大 MoE 模型，拥有 389B 总参数和 52B 激活参数。

本次腾讯混元 - Large 共计开源三款模型：Hunyuan-A52B-Pretrain，Hunyuan-A52B-Instruct 和 Hunyuan-A52B-FP8，可支持企业及开发者精调、部署等不同场景的使用需求，可在 HuggingFace、Github 等技术社区直接下载，免费可商用。通过技术优化，腾讯混元 Large 适配开源框架的精调和部署，具有较强的实用性。腾讯云 TI 平台和高性能应用服务 HAI 也同步开放接入，为模型的精调、API 调用及私有化部署提供一站式服务。

开源官网：https://llm.hunyuan.tencent.com/
github（开源模型工具包）：https://github.com/Tencent/Hunyuan-Large
huggingface（模型下载）：https://huggingface.co/tencent/Hunyuan-Large/tree/main
huggingface demo 地址：https://huggingface.co/spaces/tencent/Hunyuan-Large
技术报告：https://arxiv.org/abs/2411.02265

Hunyuan-Large 整体模型效果

公开测评结果显示，腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

技术创新点

MoE (Mixture of Experts)，也即混合专家模型，MoE 模型的每一层都包含多个并行的同构专家，一次 token 的前向计算只会激活部分专家。MoE 模型的每一层会采用路由算法，决定了 token 会被哪些专家处理。MoE 是一种稀疏的网络结构，具有比激活总参数量同等大小稠密模型更优越的性能，而推理成本却远低于总参数量相同的稠密模型。

得益于 MoE (Mixture of Experts) 结构的优越性，混元 Large 可以在保证模型推理速度的同时，显著提升模型的参数量进而提升模型性能。

1、路由和训练策略

共享专家路由策略

腾讯混元 Large 的专家层中，设置一个共享专家来捕获所有 token 所需的共同知识，还设置了 16 个需要路由的专家，模型将每个 token 路由给其激活得分最高的专家来动态学习特定领域的知识，并通过随机补偿的路由保障训练稳定性。共享专家负责处理共享的通用能力和知识，特殊专家负责处理任务相关的特殊能力，动态激活的专家，利用稀疏的神经网络来高效率的进行推理。

回收路由策略

路由策略，即把 token 分发给 MoE 中各个专家的策略，是 MoE 模型中至关重要的部分。好的路由策略可以有效地激活每个专家的能力，使得每个专家保持相对均衡的负载，同时提升模型的训练稳定性和收敛速度。业界常用的路由策略是 Top-K 路由，也就是将各个 token 按照其和专家的激活得分路由给各个专家。但是这种路由方式难以保障 token 在各个专家间平均分配，而那些超过专家负载的 token 则会被直接扔掉，不参与专家层的计算。这样会导致部分处理 token 较少的专家训练不稳定。

针对这一问题，腾讯混元 Large 在传统 Top-K 路由的基础上进一步提出了随机补偿的路由方式。

专家特定学习率适配策略

在 Hunyuan-A52B 中，共享专家和路由专家在每个迭代里面专家处理的 token 数有很大差异，这将导致每个专家实际的 batchsize 并不相同（共享专家的 batchsize 是其他专家的 16 倍），根据学习率与 Batch size 的缩放原则，为不同（共享 / 特殊）专家适配不同的最佳学习率，以提高模型的训练效率。

高质量的合成数据

大语言模型的成功与高质量的训练数据密不可分。公开网页数据通常质量参差不齐，高质量通常难以获取；在天然文本语料库的基础上，腾讯混元团队在天然文本语料库的基础上，利用混元内部系列大语言模型，构建大量的高质量、多样性、高难度合成数据，并通过模型驱动的自动化方法评价、筛选和持续维护数据质量，形成一条完整数据获取、筛选、优化、质检和合成的自动化数据链路。

在数学领域，网页数据中很难找到大量优质的思维链 (CoT) 数据。腾讯混元 Large 从网页中挖掘构建大规模题库，并利用它作为种子来合成数学问答，从而保证了多样性；同时我们利用一致性模型和评价模型来维护数据的质量，从而得到大量优质且多样的数学数据。通过加入数学合成数据显著提高了模型的数学能力。

在代码领域中，自然代码很多质量较差，而且包含类似代码解释的代码 - 文本映射的数据很稀缺。因此，腾讯混元 Large 使用大量天然代码库中的代码片段作为种子，合成了大量包含丰富的文本 - 代码映射的高质量代码训练数据，加入后大幅提升了模型的代码生成能力。

针对通用网页中低资源、高教育价值的数据，腾讯混元 Large 使用合成的方式对数据做变换、增广，构建了大量且多样的、不同形式、不同风格、高质量的合成数据，提升了模型通用领域的效果。

2、长文能力优化

采用高效的超长文 Attention 训练和退火策略。通过将长文和正常文本混合训练，逐步多阶段引入自动化构建的海量长文合成数据，每阶段仅需少量长文数据，即可获得较好的模型长文泛化和外推能力。

腾讯混元 Large 模型专项提升的长文能力已经应用到腾讯 AI 助手腾讯元宝上，最大支持 256K 上下文，相当于一本《三国演义》或英文原版的《哈利・波特》全集的长度，可以一次性处理上传最多 10 个文档，并能够一次性解析多个微信公众号链接、网址，让腾讯元宝具备独有的深度解析能力。

3、推理加速优化

随着 LLM 处理序列逐渐增长，Key-Value Cache 占用内存过大的问题日益突出，为推理成本和速度带来了挑战。

为了提高推理效率，腾讯混元团队使用 Grouped-Query Attention（GQA）和 Cross-Layer Attention （CLA) 两种策略，对 KV Cache 进行了压缩。同时引入量化技术，进一步提升压缩比。

通过 GQA+CLA 的引入，我们将 Hunyuan-A52B 模型的 head 数从 80 压缩到 8，并通过 CLA 每两层共用 KV 激活值，最终将模型的 KV Cache 压缩为 MHA 的 5%，大幅提升推理性能。下面是不同策略的 KV Cache 对比。

4、Postrain 优化

SFT 训练

腾讯混元团队在预训练模型的基础上使用超过百万量级的 SFT 数据进行精调训练，这些精调数据包含了数学、代码、逻辑、文本创作、文本理解、知识问答、角色扮演、工具使用等多种类别。为了保证进入 SFT 训练的数据质量，我们构建了一套完整的基于规则和模型判别的数据质检 Pipeline，用于发现数据中常见的 markdown 格式错误、数据截断、数据重复、数据乱码问题。此外，为了自动化地从大规模指令数据中筛选高质量的 SFT 数据，我们基于 Hunyuan-70B 模型训练了一个 Critique 模型，该模型可以对指令数据进行 4 档打分，一方面可以自动化过滤低质数据，另一方面在自进化迭代过程中可以有效提升被选 response 的质量。

我们使用 32k 长度进行 SFT 训练，另外在训练过程中为了防止过拟合，我们开启了 0.1 的 attention dropout 和 0.2 的 hidden dropout；我们发现相比 Dense 模型，MoE 架构的模型通过开启合理的 dropout，能有效提升下游任务评测的效果。另外为了更高效的利用大规模指令数据，我们对指令数据进行了质量分级，通过从粗到精的分阶段训练，有效提升了模型效果。

RLHF 训练

为了使模型能够生成与人类偏好接近的回答，我们进一步使用直接偏好优化（DPO）对齐算法对 SFT 模型进行强化训练。与离线 DPO 算法不同的是，我们在强化学习二阶段采用的是在线强化 pipeline，这一框架里集成了使用固定 pair 数据的离线 DPO 策略，和使用训练过程中更新的策略模型迭代式采样的在线强化策略。具体来说，每一轮模型只使用少量数据进行采样训练，训练完一轮之后的模型会对新的一批数据采样出多个回答，然后利用奖励模型（RM）打分，排序出最好的回答和最差的回答来构建偏好对。

为了进一步增强强化学习阶段的训练稳定性，我们随机筛选了一定比例的SFT数据用于计算 sft loss，由于这部分数据在 SFT 阶段已经学过，DPO 阶段加 sft loss 是为了保持模型的语言能力，且系数较小。此外，为了提升 dpo pair 数据里面的好答案的生成概率，防止 DPO 通过同时降低好坏答案的概率的方式来走捷径，我们也考虑加入好答案的 chosen loss 。通过以上策略的有效结合，我们的模型在 RLHF 训练后各项效果得到了明显的提升。

5、训练和精调

腾讯混元 Large 模型由腾讯全链路自研，其训练和推理均基于腾讯 Angel 机器学习平台。

针对 MoE 模型 All2all 通信效率问题，Angel 训练加速框架（AngelPTM）实现了 Expert 计算和通信层次 overlap 优化、MOE 算子融合优化以及低精度训练优化等，性能是 DeepSpeed 开源框架的 2.6 倍。

腾讯混元 Large 模型配套开源的 Angel 推理加速框架（AngelHCF-vLLM）由腾讯 Angel 机器学习平台和腾讯云智能联合研发。在 vLLM 开源框架的基础上适配了混元 Large 模型，持续通过叠加 NF4 和 FP8 的量化以及并行解码优化，在最大限度保障精度的条件下，节省 50% 以上显存，相比于 BF16 吞吐提升 1 倍以上。除此之外，Angel 推理加速框架也支持 TensorRT-LLM backend，推理性能在当前基础上进一步提升 30%，目前已在腾讯内部广泛使用，也会在近期推出对应的开源版本。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941778&idx=3&sn=8877521d364cd58dbd722ec6278a5195

机器之心

专业的人工智能媒体和产业服务平台

最新文章

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

大模型时代需要什么样的安全水位？火山方舟首度公开「会话无痕」技术细节

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

Claude都能操纵计算机了，吴恩达：智能体工作流越来越成熟

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

视觉模型学会LLM独门秘籍「上下文记忆」，迎来智能涌现的大爆发！

国内外六所高校、三家企业的AI人才招聘需求

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

穹彻智能-上交大最新Nature子刊速递：解析深度学习驱动的视触觉动态重建方案

外媒：OpenAI 、Anthropic、谷歌新模型表现均不及预期

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉