重磅!腾讯「混元」亮剑,超越Llama 3.1?

旅行   2024-11-06 00:02   北京  

腾讯悄悄放出一枚重磅炸弹!

就在大家还在为各种大模型争论不休的时候,腾讯突然杀出一匹黑马——一个基于1.5万亿合成数据训练的超大规模MoE模型!

这个模型不仅参数量惊人,性能更是直接超越了Meta的Llama 3.1 405B!

模型架构:MoE的魔力

腾讯这次推出的是一个389B-A52B的MoE(混合专家)模型

什么意思呢?简单来说,这个模型有:

  • 总参数量:236B

  • 实际激活参数:21B

  • 专家数量:160个

  • 生成时激活专家:6个

这种结构的优势在于,它能在保持超大规模的同时,大幅降低计算成本

想象一下,你有160位专家,但每次只需要6位出马,是不是很高效?

合成数据的威力

最让人惊讶的是这个模型的训练数据。

腾讯团队总共使用了7万亿个token,其中有1.5万亿是合成数据

Philipp Schmid(@_philschmid) 对此评论道:

合成数据就是你所需要的一切?腾讯的新型大规模MoE模型在1.5万亿个合成数据token上训练。这个389B-A52B的MoE模型在学术基准测试中超越了@AIatMeta的Llama 3.1 405B。

这意味着,合成数据正在成为大模型训练的新宠。

它不仅可以弥补真实数据的不足,还能帮助模型学习到更多样化的知识。

性能超越Llama 3.1

腾讯的这个模型在各项学术基准测试中都超越了Meta的Llama 3.1 405B

这是一个相当惊人的成就,考虑到Llama 3.1已经是当前最先进的开源模型之一。

更让人兴奋的是,这个模型的FP8版本理论上可以在单个H100节点(8卡)上运行

这大大降低了使用门槛,让更多研究者和开发者有机会一展身手。

开源及限制

腾讯对这个模型的开源策略也很有意思:

  • 提供了预训练、指令微调和FP8三个版本

  • 自定义许可证,允许月活用户低于100万的商业使用

  • 但明确禁止欧盟公民和公司使用

这种「区别对待」的许可策略背后,似乎颇有考量,暗藏玄机啊!

腾讯是在为未来的国际市场布局?还是对某些地区的监管有特殊考虑呢?

持续优化的技术艺术

模型的训练过程也值得关注:

  • 主要训练了英文和中文数据

  • 后训练阶段使用了SFT > DPO的流程

  • 发布了详细的技术报告和扩展实验

  • 在Hugging Face上开放了模型权重

这些细节展示了腾讯团队在模型优化上的深厚功力。

最后,你觉得国产模型要弯道超车了吗?

相关链接

模型: https://huggingface.co/tencent/Tencent-Hunyuan-Large

论文: https://arxiv.org/pdf/2411.02265

代码:https://github.com/Tencent/Tencent-Hunyuan-Large


👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章