腾讯开源宇宙最强MoE大模型Hunyuan

科技   2024-11-06 12:46   上海  

腾讯刚刚开源宇宙最强Moe模型,人性化的提供了推理&训练框架

  • github: https://github.com/Tencent/Tencent-Hunyuan-Large/blob/main/README_CN.md
  • hf: https://huggingface.co/tencent/Tencent-Hunyuan-Large

优势

  • 高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据

  • KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐

  • 专家特定学习率缩放:为不同专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献

  • 长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力

  • 广泛的基准测试:在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的实际应用效果和安全性

推理框架

本次开源提供配套Hunyuan-Large模型的 vLLM-backend 推理框架。我们在vLLM开源框架的基础上适配了Hunyuan-Large模型,譬如,新增的CLA结构可以很大程度节约显存(KV-Cache部分节省50%),保障超长文本场景。此外通过FP8的量化优化,相比FP16/BF16常规量化,在最大限度保障精度的条件下,节省50%显存,吞吐提升70%。

训练框架

Hunyuan-Large开源模型已经支持huggingface格式,支持用户采用hf-deepspeed框架进行模型精调, 同时我们也支持利用flash-attn进行训练加速,为此,我们把相关的训练脚本和模型实现也开放给到社区,方便研发者在此基础上进行后续的模型训练和精调的操作

Benchmark评估榜单

  1. Hunyuan-Large 预训练模型

与具有相似激活参数大小的Dense和MoE竞争对手相比,实现了最佳的整体性能。对于MMLU、MMLU-pro、CMMLU等基准评测,Hunyuan-Large的性能始终保持在最佳水准,证实了它在聚合任务上的综合能力。Hunyuan-Large在常识理解和推理以及经典的NLP任务,如QA和阅读理解任务(CommonsenseQA, PIQA,和TriviaQA)方面也表现出色。在数学能力方面,Hunyuan-Large在GSM8K和Math数学数据集上优于所有基线,在CMATH中文数据集上也取得了最好的成绩。同时我们观察到Hunyuan-Large在所有中文任务(例如,CMMLU, C-Eval)中实现了整体最佳的性能。

ModelLLama3.1-405BLLama3.1-70BMixtral-8x22BDeepSeek-V2Hunyuan-Large
MMLU85.279.377.878.588.4
MMLU-Pro61.653.849.5-60.2
BBH85.981.678.978.986.3
HellaSwag--88.787.886.8
CommonsenseQA85.884.182.4-92.9
WinoGrande86.785.385.084.988.7
PIQA--83.683.788.3
NaturalQuestions--39.638.752.8
DROP84.879.680.480.188.9
ARC-C96.192.991.292.495.0
TriviaQA--82.179.989.2
CMMLU--60.084.090.2
C-Eval--59.681.791.9
C3--71.477.482.3
GSM8K89.083.783.779.292.8
MATH53.841.442.543.669.8
CMATH--72.378.791.3
HumanEval61.058.553.148.871.4
MBPP73.468.664.266.672.6
  1. Hunyuan-Large-Instruct

与具有相似激活参数的llm相比在大多数的任务上实现了一致的性能提升,表明我们的post-training十分有效。在不同类别的基准测试中,我们发现我们的Instruct模型在MMLU和MATH数据集上取得了最好的性能。值得注意的是,在MMLU数据集上,我们的模型表现出了显著的提升, 相比与LLama3.1-405B模型高出2.6%。这种增强表明Hunyuan-Large-Instruct在广泛的语言理解任务中具有优越的理解和推理能力。该模型在MATH数据集上的表现进一步强调了它的实力,相比于LLama3.1-405B高出了3.6%的指标。值得注意的是,仅用520亿个激活参数就实现了精度的飞跃,证明了Hunyuan-Large-Instruct的卓越能力。

ModelLLama3.1 405B Inst.LLama3.1 70B Inst.Mixtral 8x22B Inst.DeepSeekV2.5 ChatHunyuan-Large Inst.
MMLU87.383.677.880.489.9
CMMLU--61.0-90.4
C-Eval--60.0-88.6
BBH--78.484.389.5
HellaSwag--86.090.388.5
ARC-C96.994.890.0-94.6
GPQA_diamond51.146.7--42.4
MATH73.868.049.874.777.4
HumanEval89.080.575.089.090.0
AlignBench6.05.96.28.08.3
MT-Bench9.18.88.19.09.4
IFEval strict-prompt86.083.671.2-85.0
Arena-Hard69.355.7-76.281.8
AlpacaEval-2.039.334.330.950.551.8

备注:进群,进入大模型技术群

id:duibai997,记得备注呦

你好,我是对白,硕士毕业于清华,大厂算法工程师,拿过8家大厂算法岗SSP offer

创业做过无人机、机器人和互联网+教育,保研清华后开始系统接触AI。

我每周至少更新一篇原创,分享AI算法、技术干货和职场感悟。方关注可加我私信交流点击蓝字查看我的算法学习之路

期待你关注我的公众号,一起交流与进步。

您的“点赞/在看/分享”是我坚持最大动力

坚持不易,卖萌打滚求鼓励 (ฅ>ω<*ฅ)

分享

收藏

点赞

在看

对白的算法屋
清华大学硕士,大厂算法工程师。写过书,创过业,做过产品,分享技术、快乐、财富与职场。
 最新文章