腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

科技 2024-11-09 13:31 辽宁

11 月 5 日，腾讯混元宣布最新的 MoE 模型“混元 Large“以及混元 3D 生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，且免费可商用。

其中，腾讯混元 Large 是目前开源领域参数规模最大、效果最好的 MoE 模型，而腾讯混元 3D 生成大模型则是业界首个同时支持文字、图像生成 3D 的开源大模型。目前，两个模型均已经在腾讯业务场景中落地应用，经过实践的检验，是面向实用场景的应用级大模型。

“现在开源真的一点不晚”

在腾讯机器学习平台总监、腾讯混元大语言模型算法负责人康战辉看来，去年大模型如火如荼，开源也是百花齐放，但如今来看，还是各归各位。“底层模型不是 C 端产品，不存在入口、流量，这个我们可以沉下心来长期深耕，所以现在开源真的一点不晚。”

腾讯混元这次开源的 Large 模型总参数量 389B，激活参数量 52B ，上下文长度高达 256K。根据公开测评结果，腾讯混元 Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及中英文 NLP 任务、代码和数学等 9 大维度全面领先，超过 Llama3.1、Mixtral 等一流的开源大模型。

腾讯混元 Large 在各类测试集上得分领先现有主流开源模型

官网地址：https://llm.hunyuan.tencent.com/

Github 地址：https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face 地址：https://huggingface.co/tencent/Tencent-Hunyuan-Large

在模型结构和训练策略方面，腾讯混元 Large 全面探索了 MoE ScalingLaw，进行了 MoE 共享专家路由、回收路由等策略上的创新，并引入了专家特化的学习率适配训练策略，有效提升不同专家利用率和稳定性，带来模型效果的提升。

面对 SFT 通用领域繁多，数学、代码高质量指令数据获取困难等问题，腾讯混元 Large 模型分门别类提升数学、逻辑推理、代码等能力，另外在一阶段离线 DPO 的基础上引入了二阶段在线强化策略。

数据方面，腾讯混元 Large 构建了覆盖数十个类目，高质量、高多样性、大量级的中英文合成数据。针对长文领域测评数据集缺乏，方法不够客观等问题，腾讯混元 Large 还基于公开数据，构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴（PenguinScrolls），并将对外开放。

目前，腾讯混元开源了模型的参数权重，不涉及到数据和代码，未来会逐渐把训练代码开源。

康战辉表示，大模型开源数据本身意义没有那么大，因为大模型不是软件，大模型大量靠数据驱动，但是开源数据规模太大，本身很难被大家共建，这不是写一行代码就能共建起来的。“大模型的普遍训练都是几万亿 tokens 级别，业界很难把它维护起来做进一步的挖掘，所以对于大模型，大家作为一个获益者比较容易。”

这次，腾讯混元选择了先开源大规模参数的模型、后开源小参数模型。康战辉表示，腾讯大模型的研发路径就是从大到小，而开源更多是把业务应用核心的、同源同宗的东西拿出来，腾讯后续会开源一些小的模型出来。

康战辉介绍，腾讯做开源是长期战略，腾讯大模型做了一年多没有着急去开源，重要的原因就是开源的应该是自然而然的发展。

对于开源模型和闭源模型的选择，康战辉表示，一些较大企业的业务比较复杂，对于超级复杂的业务可能需要闭源大模型才能解决，比如腾讯旗舰模型混元 turbo，当然成本摊下来更大。而开源模型面对的则是不同的开发者，尤其是大量的中小企业，包括个人开发者。随着成本和受众的增加，开源的模型会相对小一些。”

“但是不管怎么选型，开源怎么样的模型，都是同宗同源的。”康战辉强调，“我们要考虑客户在哪里，才会有不同模型的选型。我们做了大量的探索，可以做到超大万亿级的，那我们做几千亿的、几百亿的、几十亿的不在话下。

与之前“先有具体的业务场景再考虑基础设施、算法模型选择”的运作方式不同，在大模型时代，混元团队是先定了一个长期 AGI 目标，预设它要具备什么能力，然后进行研发。比如它需要语言能力、视觉能力、听觉能力、行动能力等，又如还需要个人记忆检索、思考能力，还要有复杂的多阶段学习能力、长期任务能力等，这是一个难度大、周期长的研发过程，对标的就是人类的规划、探索等能力。

这种情况下，未来两年三年的时间是比较好规划的，但这个路线怎么走，各家可能并不一样。“腾讯走了 MoE 路线，这个我们走得很早。别人可能没有做，可能做了三个月发现坑太多。我们再卷高性价比、比架构，不如赶紧把目标做出来。”康战辉说道。

“3D 生成大模型是必要的”

此次，腾讯混元开源的 3D 生成大模型 Hunyuan3D-1.0 ，则解决了现有的 3D 生成模型在生成速度和泛化能力上存在不足的问题。

“从腾讯自身业务出发看，做 3D 生成是极其必要的，像动漫、游戏、影视等都离不开 3D 资产，所以我们肯定要做 3D 生成这件事情。那做了这件事情后，按照混元的定位，我们也要回馈社区，因此我们就选择了在当前阶段进行开源。”腾讯混元 3D 模型负责人郭春超说道，“3D 生成的商业价值其实很大，但是现在需要补齐的点很多，所以从社区的需求角度而言，也需要这样的 3D 模型。”

本次，Hunyuan3D-1.0 首批开源模型包含轻量版和标准版，轻量版 10s 即可生成高质量 3D 资产，目前已在技术社区公开发布，包含模型权重、推理代码、模型算法等完整模型，开发者、研究者等可以免费使用。

官网地址：https://3d.hunyuan.tencent.com/

Github 地址：https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址：https://huggingface.co/tencent/Hunyuan3D-1

当前，业界的 3D 模型多为闭源模型。同时主要面临着三个问题：可用数据量远比其他模态少、3D 表征形态没有统一范式，生成的质量也参差不齐。

“MOE 3D 生成大模型，我们在 2024 年已经初步完成了 1.0，生成效果保持在业界第一梯队。”郭春超表示。

Hunyuan3D-1.0 选择多视角扩散模型，并使用多视图重建模型。Hunyuan3D-1.0 首先选择时空自适应 CFG，针对不同去噪步数、不同视角设置不同的权重，来平衡可控性与多样性；其次用多视图重建大模型快速完成多视角到 3D 资产生成，其中将 triplane 分辨率采样到 256 来捕捉更多细节，并在固定视角生成图外，引入任意视角的输入图注入网络，从而较少多视角图像不可见区域、提高生成精准度。

郭春超介绍，3D 生成模型还属于赛程的前半段，更多相当于一年半以前的文生图的状态，现在还是处于距离应用爆发或者距离落地大规模推广的前期阶段，因此腾讯内部在做很多技术研发跟业务的联合攻坚阶段，预计到明年会有更多的 3D 产品业务落地。”

限制 3D 模型落地的因素主要有两个：一是基础模型，3D 模型生成的稳定性、多样性和质量决定；二是需要一整套管线工具，例如怎么让 3D 模型动起来、怎么更好地编辑、怎么把功能管线的 AI 能力做好来降低使用门槛等。

“1.0 3D 的开源不是一个结束，只是一个新的开始。”郭春超表示，团队接下来还会开源 2.0、3.0。

会议推荐

就在 12 月 13 日 -14 日，AICon 将汇聚 70+ 位 AI 及技术领域的专家，深入探讨大模型与推理、AI Agent、多模态、具身智能等前沿话题。此外，还有丰富的圆桌论坛、以及展区活动，满足你对大模型实践的好奇与想象。现在正值 8 折倒计时，名额有限，快扫码咨询了解详情，别错过这次绝佳的学习与交流机会！

今日荐文

硅谷决战美国大选！ChatGPT、Copilot们都“闭嘴”了，Perplexity 狂“秀操作”翻车

姜萍阿里数学竞赛系老师提供帮助，学校老师被处分；英伟达取代英特尔被纳入道指；一个App实现人猪沟通 | AI周报

走近宋柔教授：78岁仍在科研前线，在语言学高校里做AI的计算语言学家

一键取代谷歌成默认搜索引擎！ChatGPT搜索功能深夜炸场，奥特曼加速将谷歌逼向死亡

纯 AI 厂商早过时了！Runway CEO “手撕”大模型厂商标签，招兵买马开始转型

你也「在看」吗？👇

http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247626889&idx=2&sn=85c55e244c8a3a032fd71cd5d2bb2b40

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

最新文章

仅4个多月RAG就进化到“一个新时代”了：成本降低到GraphRAG的0.1%

两位清华大牛联手带出的明星企业，摘得Robotaxi第一股，市值超360亿！

科技巨头重磅发力的 AI Agent，给了谁新出路？| 直播预约

泄露的 Sora 效果炸裂，还一次成型！OpenAI 白嫖丑闻闹大了，吃瓜网友看到了进化版模型

大模型让我们成了“提词狂魔”，未来开发者核心竞争力在哪里？

全员停发工资、高管跑路：被小米看上的智驾明星 IPO 三度败北，前员工吐槽“越做越赔钱”

Anthropic 工程师关于提示词工程的深入探讨

AI 杀死了程序员培训班：花 1.3 万美元学编程，却连面试机会都没有？

AI产品如何找到破局之道？秘塔 COO、B 站“王一快”在 AICon 带来答案！

孙宇晨花 624 万美元拍下一根香蕉；黄仁勋荣获港科大荣誉博士；70 多辆小米 SU7 自动泊车撞墙、撞柱 |AI周报

谷歌 AlphaChip 论文再被质疑，DeepMind 驳斥都没做预训练，顺带还揪出了“内鬼”？

强制销毁员工聊天记录！谷歌15年打造“隐瞒文化”：不要保留任何可能让我们难堪的东西！

Pokémon Go 公司构建大型地理空间模型，玩家不知不觉贡献了训练数据

ChatGPT 干掉了一家上市公司！千亿市值归零、10 多年 CEO 被迫离职，付费用户直呼上当

Mooncake 分离式推理架构创新与实践

营收翻倍、Blackwell芯片爆单，黄仁勋否认 Scaling Law 失效，但英伟达财报后股价还是跌了

“为什么说大模型可能是软件开发的死胡同？”

最大的 AI Agent 生态系统来了！微软推出适配 1800 种大模型的智能体，迈入自己的 Agent 时代

微软和清华大学为 LLM 提出了 DIFF Transformer 架构

粉丝福利 | 11 月 23 日，来一场边玩边赚钱的Party！

独家｜腾讯杰出科学家、混元大模型技术负责人之一刘威离职

Scaling Law，撞墙了吗？| 直播预告

全球超万亿使用量的热门数据库，首次被大模型揪出了严重漏洞

英伟达 Blackwell 芯片又又又曝问题！老黄大半年没搞定，微软们被迫换货、换方案

网易CodeWave：当低代码+AIGC 进入深水区，我们如何继续发展？

AI周报 | 月之暗面杨植麟回应近期争议；马斯克或遭调查，理由是“通俄”；小米汽车校招待遇曝光，一年可达 18 薪

通义灵码 SWE-GPT：从静态代码建模迈向软件开发过程长链推理

马斯克“当官”，硅谷大佬抢破头进 DOGE：零报酬、每周工作 80 个小时，录取率不到 1%

钉钉公布商业化核心进展：上半财年ARR远超2亿美元，6大新AI助理现已免费开放

Anthropic创始人访谈：不是因为Altman 与微软合作而离开OpenAI、Scaling Law不会撞墙、未来招聘将放缓

我们为什么不遗余力地举办 AICon？

助推“超级有用”的应用爆发，百度把开发门槛打下去了

续航超 4 小时、算力 550T，这款国产自研人形机器人让家务更轻松

AI 商业化落地难？百度“杀”出新增长

Mojo 作者 Chris Lattner：Mojo 不仅仅是一种 AI 语言

挨骂 6 个月后，DeepMind 急了：诺奖模型 AlphaFold 3 代码全网免费送，Nature 也发文力荐！

应用突破还是炫技噱头：大模型能否真正驱动行业升级？

天塌了，Scaling Law 已撞收益递减墙？OpenAI 在内，所有大模型都正遭遇巨大瓶颈

过去一年我开发 AI 视频编辑器的收获

一句话改图！字节豆包通用图像编辑模型 SeedEdit 上线测试

AI周报 | 字节弱化等级：不提倡称哥姐、隐掉职级性别；雷军或推小米驾校，1999元包训漂移？携程CEO：缩短工作时间或提高生育

著名 AI 学者、天工智能首席科学家颜水成离开昆仑万维，去年 9 月入职

微软将斥巨资 700 多亿元，从 AI 初创公司 CoreWeave 租用服务器

6 年 OpenAI 高管揭秘：我为什么离开 OpenAI 及这个公司现在怎样了？

腾讯混元康战辉：将开源大模型训练代码，但数据开源意义不大

谷歌版贾维斯意外泄露！自主上网购物填表不在话下，“钢铁侠 ”成真指日可待？

122 天打造的奇迹：深入探访 xAI 的 10 万块 GPU 超级 AI 计算机集群

Netflix 弃用人类游戏开发转向 AI，游戏大厂不敢跟风！Netflix 高管：这是“千载难逢”的机遇

用 AI 赋能会议耳机，未来智能要做打工人的嘴替脑替

甲骨文吴承杨：生成式 AI 难以落地，缺少以 AI 为中心的应用开发架构是关键

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉