11月5日,腾讯宣布其最新的大规模语言模型“混元Large”和3D生成大模型“Hunyuan3D-1.0”正式开源。
作为国内首个采用Mixture of Experts (MoE) 架构的大型模型,“混元Large”不仅参数规模达到389B,激活参数量52B,上下文长度更是达到了256K,成为目前开源领域中参数规模最大、效果最优的MoE模型之一。
与此同时,腾讯推出的3D生成大模型“Hunyuan3D-1.0”则是业界首个同时支持文字、图像生成3D的开源大模型。
| 混元Large:开源领域的新里程碑
“混元Large”基于MoE架构,该架构通过将任务分配给不同的“专家”网络来提高计算效率和模型性能。
自2024年初以来,腾讯便在国内率先采用了这一架构,与上一代Dense模型相比,总体性能提升了50%。
此外,腾讯还推出了基于MoE架构的多模态理解和基础模型“混元turbo”,在性能、效果和速度等多个方面表现出色,第三方测评结果显示其在国内大模型中排名第一。
在模型结构和训练策略方面,“混元Large”探索了MoE Scaling Law,进行了MoE共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提高了不同专家的利用率和稳定性,进一步提升了模型的整体效果。
为了应对SFT(监督微调)通用领域繁多、数学和代码高质量指令数据获取困难等挑战,“混元Large”在Post-Train方面进行了大量的创新优化,包括分门别类地提升数学、逻辑推理和代码等能力,以及在一阶段离线DPO基础上引入了二阶段在线强化策略。
在数据方面,“混元Large”构建了一个覆盖数十个类目的高质量、高多样性的中英文合成数据集,显著提升了模型的效果。
特别是数学和代码方面,效果提升超过了10%。
针对长文领域测评数据集缺乏、方法不够客观等问题,“混元Large”基于公开数据,构建了一套完整的长文阅读理解、多文档摘要总结和长文逻辑推理等领域的数据集——企鹅卷轴(PenguinScrolls),并计划对外开放,以助力大模型在长文方向的技术研究。
“混元Large”的长文能力已经应用于腾讯AI助手“腾讯元宝”上,支持最大256K的上下文长度,相当于一本《三国演义》的长度,能够一次性处理上传最多10个文档,并能够一次性解析多个微信公众号链接和网址,使“腾讯元宝”具备了独特的深度解析能力。
在工程平台方面,“混元Large”由腾讯自研,其训练和推理均基于腾讯Angel机器学习平台。
针对MoE模型的通信效率问题,Angel训练加速框架AngelPTM实现了多项技术优化,性能是主流开源框架DeepSpeed的2.6倍。
此外,针对模型推理加速,腾讯Angel机器学习平台和腾讯云智能联合研发了AngelHCF-vLLM框架,在最大限度保障精度的条件下,可节省50%以上的显存,吞吐量相比业界主流框架BF16提升了1倍以上。
| 3D生成大模型:开创3D生成新纪元
“Hunyuan3D-1.0”作为业界首个同时支持文字和图像生成3D的开源大模型,首批开源模型包括轻量版和标准版。
轻量版仅需10秒即可生成高质量的3D资产,现已在技术社区公开发布,包含模型权重、推理代码和模型算法等完整模型,供开发者和研究者免费使用。
该模型已上架到腾讯云HAI平台,通过HAI提供的高性价比GPU算力、模型一键部署能力和可视化图形界面WebUI,有效降低了模型开放和部署的门槛。
“Hunyuan3D-1.0”解决了现有3D生成模型在生成速度和泛化能力上的不足,具有强大的泛化能力和可控性,能够重建各类尺度的物体,从大型建筑到小型工具和花草。
经过定性和定量多个维度的评估,该模型的生成质量已达到开源模型的先进水平。
在两个公开的3D数据集GSO和OmniObject3D上,“Hunyuan3D-1.0”的效果优于主流开源模型,整体能力处于国际领先水平。
3D生成相关技术已经开始应用于UGC 3D创作、商品素材合成和游戏3D资产生成等腾讯业务中。
例如,腾讯地图基于“Hunyuan3D-1.0”发布了自定义3D导航车标功能,支持用户创作个性化的3D导航车标,相比传统3D车标重建方案,速度提升了91%。
此外,腾讯元宝APP也上线了“3D角色梦工厂”玩法,支持个性化的UGC 3D人物生成。
随着自研大模型技术的强大和应用实践经验的丰富,开源已成为腾讯混元大模型的战略选择。
直达链接:
https://llm.hunyuan.tencent.com/
https://3d.hunyuan.tencent.com/
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】