腾讯混元康战辉:将开源大模型训练代码,但数据开源意义不大

科技   2024-11-09 13:31   辽宁  

11 月 5 日,腾讯混元宣布最新的 MoE 模型“混元 Large“以及混元 3D 生成大模型“ Hunyuan3D-1.0”正式开源,支持企业及开发者精调、部署等不同场景的使用需求,且免费可商用。

其中,腾讯混元 Large 是目前开源领域参数规模最大、效果最好的 MoE 模型,而腾讯混元 3D 生成大模型则是业界首个同时支持文字、图像生成 3D 的开源大模型。目前,两个模型均已经在腾讯业务场景中落地应用,经过实践的检验,是面向实用场景的应用级大模型。

“现在开源真的一点不晚”

在腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉看来,去年大模型如火如荼,开源也是百花齐放,但如今来看,还是各归各位。“底层模型不是 C 端产品,不存在入口、流量,这个我们可以沉下心来长期深耕,所以现在开源真的一点不晚。”

腾讯混元这次开源的 Large 模型总参数量 389B,激活参数量 52B ,上下文长度高达 256K。根据公开测评结果,腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先,超过 Llama3.1、Mixtral 等一流的开源大模型。

腾讯混元 Large 在各类测试集上得分领先现有主流开源模型

官网地址:https://llm.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face 地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

在模型结构和训练策略方面,腾讯混元 Large 全面探索了 MoE ScalingLaw,进行了 MoE 共享专家路由、回收路由等策略上的创新,并引入了专家特化的学习率适配训练策略,有效提升不同专家利用率和稳定性,带来模型效果的提升。

面对 SFT 通用领域繁多,数学、代码高质量指令数据获取困难等问题,腾讯混元 Large 模型分门别类提升数学、逻辑推理、代码等能力,另外在一阶段离线 DPO 的基础上引入了二阶段在线强化策略。

数据方面,腾讯混元 Large 构建了覆盖数十个类目,高质量、高多样性、大量级的中英文合成数据。针对长文领域测评数据集缺乏,方法不够客观等问题,腾讯混元 Large 还基于公开数据,构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴(PenguinScrolls),并将对外开放。

目前,腾讯混元开源了模型的参数权重,不涉及到数据和代码,未来会逐渐把训练代码开源。

康战辉表示,大模型开源数据本身意义没有那么大,因为大模型不是软件,大模型大量靠数据驱动,但是开源数据规模太大,本身很难被大家共建,这不是写一行代码就能共建起来的。“大模型的普遍训练都是几万亿 tokens 级别,业界很难把它维护起来做进一步的挖掘,所以对于大模型,大家作为一个获益者比较容易。”

这次,腾讯混元选择了先开源大规模参数的模型、后开源小参数模型。康战辉表示,腾讯大模型的研发路径就是从大到小,而开源更多是把业务应用核心的、同源同宗的东西拿出来,腾讯后续会开源一些小的模型出来。

康战辉介绍,腾讯做开源是长期战略,腾讯大模型做了一年多没有着急去开源,重要的原因就是开源的应该是自然而然的发展。

对于开源模型和闭源模型的选择,康战辉表示,一些较大企业的业务比较复杂,对于超级复杂的业务可能需要闭源大模型才能解决,比如腾讯旗舰模型混元 turbo,当然成本摊下来更大。而开源模型面对的则是不同的开发者,尤其是大量的中小企业,包括个人开发者。随着成本和受众的增加,开源的模型会相对小一些。”

“但是不管怎么选型,开源怎么样的模型,都是同宗同源的。”康战辉强调,“我们要考虑客户在哪里,才会有不同模型的选型。我们做了大量的探索,可以做到超大万亿级的,那我们做几千亿的、几百亿的、几十亿的不在话下。

与之前“先有具体的业务场景再考虑基础设施、算法模型选择”的运作方式不同,在大模型时代,混元团队是先定了一个长期 AGI 目标,预设它要具备什么能力,然后进行研发。比如它需要语言能力、视觉能力、听觉能力、行动能力等,又如还需要个人记忆检索、思考能力,还要有复杂的多阶段学习能力、长期任务能力等,这是一个难度大、周期长的研发过程,对标的就是人类的规划、探索等能力。

这种情况下,未来两年三年的时间是比较好规划的,但这个路线怎么走,各家可能并不一样。“腾讯走了 MoE 路线,这个我们走得很早。别人可能没有做,可能做了三个月发现坑太多。我们再卷高性价比、比架构,不如赶紧把目标做出来。”康战辉说道。

“3D 生成大模型是必要的”

此次,腾讯混元开源的 3D 生成大模型 Hunyuan3D-1.0 ,则解决了现有的 3D 生成模型在生成速度和泛化能力上存在不足的问题。

“从腾讯自身业务出发看,做 3D 生成是极其必要的,像动漫、游戏、影视等都离不开 3D 资产,所以我们肯定要做 3D 生成这件事情。那做了这件事情后,按照混元的定位,我们也要回馈社区,因此我们就选择了在当前阶段进行开源。”腾讯混元 3D 模型负责人郭春超说道,“3D 生成的商业价值其实很大,但是现在需要补齐的点很多,所以从社区的需求角度而言,也需要这样的 3D 模型。”

本次,Hunyuan3D-1.0 首批开源模型包含轻量版和标准版,轻量版 10s 即可生成高质量 3D 资产,目前已在技术社区公开发布,包含模型权重、推理代码、模型算法等完整模型,开发者、研究者等可以免费使用。

官网地址:https://3d.hunyuan.tencent.com/

Github 地址:https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址:https://huggingface.co/tencent/Hunyuan3D-1

当前,业界的 3D 模型多为闭源模型。同时主要面临着三个问题:可用数据量远比其他模态少、3D 表征形态没有统一范式,生成的质量也参差不齐。

“MOE 3D 生成大模型,我们在 2024 年已经初步完成了 1.0,生成效果保持在业界第一梯队。”郭春超表示。

Hunyuan3D-1.0 选择多视角扩散模型,并使用多视图重建模型。Hunyuan3D-1.0 首先选择时空自适应 CFG,针对不同去噪步数、不同视角设置不同的权重,来平衡可控性与多样性;其次用多视图重建大模型快速完成多视角到 3D 资产生成,其中将 triplane 分辨率采样到 256 来捕捉更多细节,并在固定视角生成图外,引入任意视角的输入图注入网络,从而较少多视角图像不可见区域、提高生成精准度。

郭春超介绍,3D 生成模型还属于赛程的前半段,更多相当于一年半以前的文生图的状态,现在还是处于距离应用爆发或者距离落地大规模推广的前期阶段,因此腾讯内部在做很多技术研发跟业务的联合攻坚阶段,预计到明年会有更多的 3D 产品业务落地。”

限制 3D 模型落地的因素主要有两个:一是基础模型,3D 模型生成的稳定性、多样性和质量决定;二是需要一整套管线工具,例如怎么让 3D 模型动起来、怎么更好地编辑、怎么把功能管线的 AI 能力做好来降低使用门槛等。

“1.0 3D 的开源不是一个结束,只是一个新的开始。”郭春超表示,团队接下来还会开源 2.0、3.0。

会议推荐

就在 12 月 13 日 -14 日,AICon 将汇聚 70+ 位 AI 及技术领域的专家,深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外,还有丰富的圆桌论坛、以及展区活动,满足你对大模型实践的好奇与想象。现在正值 8 折倒计时,名额有限,快扫码咨询了解详情,别错过这次绝佳的学习与交流机会!


今日荐文

硅谷决战美国大选!ChatGPT、Copilot们都“闭嘴”了,Perplexity 狂“秀操作”翻车
姜萍阿里数学竞赛系老师提供帮助,学校老师被处分;英伟达取代英特尔被纳入道指;一个App实现人猪沟通 | AI周报
走近宋柔教授:78岁仍在科研前线,在语言学高校里做AI的计算语言学家
一键取代谷歌成默认搜索引擎!ChatGPT搜索功能深夜炸场,奥特曼加速将谷歌逼向死亡
纯 AI 厂商早过时了!Runway CEO “手撕”大模型厂商标签,招兵买马开始转型
你也「在看」吗?👇

AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
 最新文章