腾讯悄悄放出一枚重磅炸弹!
就在大家还在为各种大模型争论不休的时候,腾讯突然杀出一匹黑马——一个基于1.5万亿合成数据训练的超大规模MoE模型!
这个模型不仅参数量惊人,性能更是直接超越了Meta的Llama 3.1 405B!
模型架构:MoE的魔力
腾讯这次推出的是一个389B-A52B的MoE(混合专家)模型。
什么意思呢?简单来说,这个模型有:
总参数量:236B
实际激活参数:21B
专家数量:160个
生成时激活专家:6个
这种结构的优势在于,它能在保持超大规模的同时,大幅降低计算成本。
想象一下,你有160位专家,但每次只需要6位出马,是不是很高效?
合成数据的威力
最让人惊讶的是这个模型的训练数据。
腾讯团队总共使用了7万亿个token,其中有1.5万亿是合成数据!
Philipp Schmid(@_philschmid) 对此评论道:
合成数据就是你所需要的一切?腾讯的新型大规模MoE模型在1.5万亿个合成数据token上训练。这个389B-A52B的MoE模型在学术基准测试中超越了@AIatMeta的Llama 3.1 405B。
这意味着,合成数据正在成为大模型训练的新宠。
它不仅可以弥补真实数据的不足,还能帮助模型学习到更多样化的知识。
性能超越Llama 3.1
腾讯的这个模型在各项学术基准测试中都超越了Meta的Llama 3.1 405B。
这是一个相当惊人的成就,考虑到Llama 3.1已经是当前最先进的开源模型之一。
更让人兴奋的是,这个模型的FP8版本理论上可以在单个H100节点(8卡)上运行。
这大大降低了使用门槛,让更多研究者和开发者有机会一展身手。
开源及限制
腾讯对这个模型的开源策略也很有意思:
提供了预训练、指令微调和FP8三个版本
自定义许可证,允许月活用户低于100万的商业使用
但明确禁止欧盟公民和公司使用
这种「区别对待」的许可策略背后,似乎颇有考量,暗藏玄机啊!
腾讯是在为未来的国际市场布局?还是对某些地区的监管有特殊考虑呢?
持续优化的技术艺术
模型的训练过程也值得关注:
主要训练了英文和中文数据
后训练阶段使用了SFT > DPO的流程
发布了详细的技术报告和扩展实验
在Hugging Face上开放了模型权重
这些细节展示了腾讯团队在模型优化上的深厚功力。
最后,你觉得国产模型要弯道超车了吗?
模型: https://huggingface.co/tencent/Tencent-Hunyuan-Large
论文: https://arxiv.org/pdf/2411.02265
代码:https://github.com/Tencent/Tencent-Hunyuan-Large
👇
👇
👇
👇
本文同步自知识星球《AGI Hunt》
星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!