最近,大型语言模型(LLM)的参数规模竞赛愈演愈烈。更大的模型通常意味着更强的性能,但也带来了高昂的训练和部署成本,让许多开发者望尘莫及。腾讯开源的Hunyuan-Large,以其兼顾性能与效率的优异表现,打破了这一壁垒,为LLM的普及化应用带来了新的希望。
Hunyuan-Large:深入解读MoE巨模型架构
Hunyuan-Large是业界首个参数规模最大且性能最优的Transformer架构开源MoE模型。它在公开benchmark、多轮对话、高质量文本生成、数学逻辑、代码创作等多个任务上都取得了卓越的成绩,并且已经成功应用于腾讯的AI聊天机器人——元宝,赋能腾讯数千应用场景,服务数十亿用户。
不同于传统的密集模型,MoE模型将任务动态分配给不同的“专家”模块处理。每个专家模块都专注于特定类型的任务,从而显著提升模型的效率和性能。Hunyuan-Large拥有3890亿总参数和520亿激活参数,上下文长度更是达到了惊人的256k,这意味着它能够理解更长的文本输入,捕捉更复杂的语境,并生成更连贯、更符合逻辑的输出。模型采用了64层Transformer结构,80个注意力头,隐藏层维度为6400。每个token会激活一个共享专家和一个特定专家。
核心技术创新:性能与效率的完美融合
Hunyuan-Large的强大性能并非仅仅依靠庞大的参数规模,更得益于一系列关键技术创新:
• 海量高质量合成数据: Hunyuan-Large的训练使用了7T tokens数据,其中包含近1.5T tokens的高质量合成数据。这些合成数据涵盖了丰富的知识和场景,尤其在数学、代码、低资源语言和高教育价值领域进行了重点强化,使得模型能够更好地理解世界,生成更准确、更自然的文本。其数据合成流程如下图所示,包含指令生成、指令演化、回复生成和回复过滤四个关键步骤:
• KV缓存压缩技术: 为了降低内存占用和提升推理速度,Hunyuan-Large采用了一种创新的KV缓存压缩策略。它巧妙地结合了GQA(Grouped Query Attention,8组KV头)和CLA(Cross-Layer Attention,每2层共享)两种技术,将KV缓存压缩为MHA(Multi-Head Attention)的5%,实现近95%的内存节省,显著提升了推理效率。
KV缓存压缩策略
• 专家特定学习率缩放: Hunyuan-Large的MoE架构包含1个共享专家和16个特定专家。为了优化每个专家的学习效果,模型采用了专家特定学习率缩放策略,根据每个专家的负载和训练情况动态调整学习率。特定专家的学习率被设置为共享专家的0.31倍,有效提升了整体模型的训练效率和性能。模型使用了AdamW优化器。
• 超长上下文处理能力: Hunyuan-Large支持高达256k的超长上下文窗口,使其能够轻松处理长文本任务,例如长文档摘要、问答和代码生成等,这对于需要处理大量文本信息的应用场景至关重要。模型采用了Rotary Position Embedding (RoPE)进行位置编码,并在256k预训练阶段将RoPE的基频缩放至10亿。
• 混合路由策略与Recycle Routing: Hunyuan-Large采用了一种混合路由策略,它结合了共享专家和路由专家的优势,并对不同类型的专家采用了不同的学习率策略。共享专家负责处理所有token的通用知识,而路由专家则专注于特定领域的知识。更重要的是,模型引入了Recycle Routing策略,将原本因专家过载而被丢弃的token重新路由到其他未超载的专家,最大限度地利用每一个token,如下图所示:
Figure 2: Recycle Routing 策略
• MoE缩放法则探索: 腾讯的研究人员深入探索了MoE模型的缩放法则,研究模型规模、训练数据和性能之间的关系,并推导出MoE模型的计算预算公式:C≈ 9.59ND + 2.3 × 10⁸D (N为激活参数数量,D为训练token数量),为未来更大规模MoE模型的开发和优化提供了宝贵的理论指导。下图展示了不同计算预算下最佳激活参数数量的缩放法则:
MoE 缩放法则 - 激活参数
下图则展示了不同计算预算下最佳训练数据量的缩放法则:
MoE 缩放法则 - 训练数据
• 三阶段学习率调度: 模型训练采用了warmup、gradual decay 和 annealing 三阶段学习率调度策略,以平衡探索解空间和收敛到最优解,保证模型训练的稳定性和最终性能。
• 高效Tokenizer: Hunyuan-Large使用了一个包含 128k tokens 的词汇表,其中100k来自tiktoken,另外28k专门为中文设计。这不仅增强了模型的中文处理能力,还提升了tokenizer的压缩率,从Llama3 tokenizer的2.78字符/token提升到3.13字符/token。
性能评估:比肩甚至超越更大规模模型
Hunyuan-Large在多项基准测试中都取得了令人瞩目的成绩,其性能比肩甚至超越了参数规模更大的模型,例如Llama3.1-405B。尤其是在中文领域,Hunyuan-Large的表现更是无出其右,这对于中文NLP社区来说无疑是一个重大利好。例如,在MMLU上,Hunyuan-Large比Llama3.1-70B提升了9.1个百分点,比Mixtral-8x22B提升了10.6个百分点,并达到了与规模更大的Llama3.1-405B相当的水平。
部署与推理:灵活高效,多种方案任你选
为了方便开发者快速部署和使用,Hunyuan-Large提供了vLLM和TRT-LLM两种推理后端,并支持 FP8 和 INT8 量化,可以根据实际需求灵活选择最合适的方案。FP8量化在保证模型性能的同时,内存使用减少了50%,吞吐量提升了70%,显著降低了推理成本。
开源与社区:携手共建繁荣AI生态
Hunyuan-Large的开源,不仅仅是腾讯对AI社区的贡献,更是对AI技术发展和普惠AI的坚定承诺。通过开源模型权重、代码和技术报告,腾讯希望与全球开发者携手,共同推动AI技术的进步和应用,构建更加繁荣的AI生态。
Hunyuan-Large以其庞大的规模、卓越的性能和高效的部署方案,为大型语言模型的发展树立了新的里程碑。我们相信,在未来,Hunyuan-Large将在更多领域大放异彩,为我们带来更多惊喜,开启AI发展的新纪元!
相关链接
• 官方网站:https://llm.hunyuan.tencent.com/
• 技术报告: https://arxiv.org/abs/2411.02265