腾讯刚刚开源宇宙最强Moe模型,人性化的提供了推理&训练框架
github: https://github.com/Tencent/Tencent-Hunyuan-Large/blob/main/README_CN.md hf: https://huggingface.co/tencent/Tencent-Hunyuan-Large
优势
高质量合成数据:通过合成数据增强训练,Hunyuan-Large能够学习到更丰富的表示,处理长上下文输入,并更好地泛化到未见数据
KV缓存压缩:采用分组查询注意力(GQA)和跨层注意力(CLA)策略,显著减少了KV缓存的内存占用和计算开销,提高了推理吞吐
专家特定学习率缩放:为不同专家设置不同的学习率,确保每个子模型都能有效地从数据中学习,并为整体性能做出贡献
长上下文处理能力:预训练模型支持高达256K的文本序列,Instruct模型支持128K的文本序列,显著提升了长上下文任务的处理能力
广泛的基准测试:在多种语言和任务上进行广泛实验,验证了Hunyuan-Large的实际应用效果和安全性
推理框架
本次开源提供配套Hunyuan-Large模型的 vLLM-backend 推理框架。我们在vLLM开源框架的基础上适配了Hunyuan-Large模型,譬如,新增的CLA结构可以很大程度节约显存(KV-Cache部分节省50%),保障超长文本场景。此外通过FP8的量化优化,相比FP16/BF16常规量化,在最大限度保障精度的条件下,节省50%显存,吞吐提升70%。
训练框架
Hunyuan-Large开源模型已经支持huggingface格式,支持用户采用hf-deepspeed框架进行模型精调, 同时我们也支持利用flash-attn进行训练加速,为此,我们把相关的训练脚本和模型实现也开放给到社区,方便研发者在此基础上进行后续的模型训练和精调的操作
Benchmark评估榜单
Hunyuan-Large 预训练模型
与具有相似激活参数大小的Dense和MoE竞争对手相比,实现了最佳的整体性能。对于MMLU、MMLU-pro、CMMLU等基准评测,Hunyuan-Large的性能始终保持在最佳水准,证实了它在聚合任务上的综合能力。Hunyuan-Large在常识理解和推理以及经典的NLP任务,如QA和阅读理解任务(CommonsenseQA, PIQA,和TriviaQA)方面也表现出色。在数学能力方面,Hunyuan-Large在GSM8K和Math数学数据集上优于所有基线,在CMATH中文数据集上也取得了最好的成绩。同时我们观察到Hunyuan-Large在所有中文任务(例如,CMMLU, C-Eval)中实现了整体最佳的性能。
Model | LLama3.1-405B | LLama3.1-70B | Mixtral-8x22B | DeepSeek-V2 | Hunyuan-Large |
---|---|---|---|---|---|
MMLU | 85.2 | 79.3 | 77.8 | 78.5 | 88.4 |
MMLU-Pro | 61.6 | 53.8 | 49.5 | - | 60.2 |
BBH | 85.9 | 81.6 | 78.9 | 78.9 | 86.3 |
HellaSwag | - | - | 88.7 | 87.8 | 86.8 |
CommonsenseQA | 85.8 | 84.1 | 82.4 | - | 92.9 |
WinoGrande | 86.7 | 85.3 | 85.0 | 84.9 | 88.7 |
PIQA | - | - | 83.6 | 83.7 | 88.3 |
NaturalQuestions | - | - | 39.6 | 38.7 | 52.8 |
DROP | 84.8 | 79.6 | 80.4 | 80.1 | 88.9 |
ARC-C | 96.1 | 92.9 | 91.2 | 92.4 | 95.0 |
TriviaQA | - | - | 82.1 | 79.9 | 89.2 |
CMMLU | - | - | 60.0 | 84.0 | 90.2 |
C-Eval | - | - | 59.6 | 81.7 | 91.9 |
C3 | - | - | 71.4 | 77.4 | 82.3 |
GSM8K | 89.0 | 83.7 | 83.7 | 79.2 | 92.8 |
MATH | 53.8 | 41.4 | 42.5 | 43.6 | 69.8 |
CMATH | - | - | 72.3 | 78.7 | 91.3 |
HumanEval | 61.0 | 58.5 | 53.1 | 48.8 | 71.4 |
MBPP | 73.4 | 68.6 | 64.2 | 66.6 | 72.6 |
Hunyuan-Large-Instruct
与具有相似激活参数的llm相比在大多数的任务上实现了一致的性能提升,表明我们的post-training十分有效。在不同类别的基准测试中,我们发现我们的Instruct模型在MMLU和MATH数据集上取得了最好的性能。值得注意的是,在MMLU数据集上,我们的模型表现出了显著的提升, 相比与LLama3.1-405B模型高出2.6%。这种增强表明Hunyuan-Large-Instruct在广泛的语言理解任务中具有优越的理解和推理能力。该模型在MATH数据集上的表现进一步强调了它的实力,相比于LLama3.1-405B高出了3.6%的指标。值得注意的是,仅用520亿个激活参数就实现了精度的飞跃,证明了Hunyuan-Large-Instruct的卓越能力。
Model | LLama3.1 405B Inst. | LLama3.1 70B Inst. | Mixtral 8x22B Inst. | DeepSeekV2.5 Chat | Hunyuan-Large Inst. |
---|---|---|---|---|---|
MMLU | 87.3 | 83.6 | 77.8 | 80.4 | 89.9 |
CMMLU | - | - | 61.0 | - | 90.4 |
C-Eval | - | - | 60.0 | - | 88.6 |
BBH | - | - | 78.4 | 84.3 | 89.5 |
HellaSwag | - | - | 86.0 | 90.3 | 88.5 |
ARC-C | 96.9 | 94.8 | 90.0 | - | 94.6 |
GPQA_diamond | 51.1 | 46.7 | - | - | 42.4 |
MATH | 73.8 | 68.0 | 49.8 | 74.7 | 77.4 |
HumanEval | 89.0 | 80.5 | 75.0 | 89.0 | 90.0 |
AlignBench | 6.0 | 5.9 | 6.2 | 8.0 | 8.3 |
MT-Bench | 9.1 | 8.8 | 8.1 | 9.0 | 9.4 |
IFEval strict-prompt | 86.0 | 83.6 | 71.2 | - | 85.0 |
Arena-Hard | 69.3 | 55.7 | - | 76.2 | 81.8 |
AlpacaEval-2.0 | 39.3 | 34.3 | 30.9 | 50.5 | 51.8 |