免费可商用！腾讯混元大语言模型和3D模型正式开源！

文摘 2024-11-08 00:06 上海

点击下方卡片，关注“AI生成未来”

>>回复“GAI”，免费获取最新生成式AI相关行业报告和资料！

转载自：腾讯混元

如有侵权，联系删稿

11月5日，腾讯混元最新的MoE模型“混元Large“以及混元3D生成大模型“ Hunyuan3D-1.0”正式开源，支持企业及开发者精调、部署等不同场景的使用需求，可在HuggingFace、Github等技术社区直接下载，免费可商用。

腾讯混元大模型正在加快开源步伐

本次开源是腾讯混元继文生图模型后持续开放的一大举措。其中，腾讯混元Large是目前开源领域参数规模最大、效果最好的MoE模型，而腾讯混元3D生成大模型则是业界首个同时支持文字、图像生成3D的开源大模型。两个模型均属腾讯自研，在架构、算法、数据等方面有独特创新，填补了行业空白。目前，两个模型均已经在腾讯业务场景中落地应用，经过实践的检验，是面向实用场景的应用级大模型。

当天，腾讯云TI平台和高性能应用服务HAI也开放接入这两个模型，为模型的精调、API调用及私有化部署提供一站式服务。

坚持MoE架构，模型持续升级开放

腾讯混元Large模型总参数量 389B，激活参数量 52B ，上下文长度高达256K，公开测评结果显示，腾讯混元Large 在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先，超过Llama3.1、Mixtral等一流的开源大模型。

腾讯混元Large 在各类测试集上得分领先现有主流开源模型

MoE(Mixture of Experts)，即混合专家模型，是目前国内外主流的大模型结构。2024年年初，腾讯混元就宣布在国内率先采用MoE架构模型，总体性能比上一代Dense模型提升50%。此后，腾讯混元推出基于 MoE 架构的多模态理解大模型以及基础模型"混元turbo"，在性能、效果、速度等多个领域表现优越，第三方测评居国内大模型第一。

在模型结构和训练策略方面，腾讯混元Large全面探索了MoE ScalingLaw，进行了MoE共享专家路由、回收路由等策略上的创新，并引入了专家特化的学习率适配训练策略，有效提升不同专家利用率和稳定性，带来模型效果的提升。

腾讯混元Large在Post-Train方面做了大量创新优化。面对SFT通用领域繁多，数学、代码高质量指令数据获取困难，业界广泛采用的离线DPO，强化策略效果上限不高，泛化性弱等挑战，腾讯混元Large模型分门别类提升数学、逻辑推理、代码等能力，另外在一阶段离线DPO的基础上引入了二阶段在线强化策略。

数据方面，腾讯混元Large构建了覆盖数十个类目，高质量、高多样性、大量级的中英文合成数据，显著提升模型效果，其中数学和代码效果提升超过10%。针对长文领域测评数据集缺乏，方法不够客观等问题，腾讯混元Large还基于公开数据，构建了一套完整覆盖长文阅读理解、多文档摘要总结、长文逻辑推理等领域任务的数据集企鹅卷轴（PenguinScrolls），并将对外开放，助力大模型长文方向的技术研究。

腾讯混元Large模型专项提升的长文能力已经应用到腾讯AI助手腾讯元宝上，最大支持256K上下文，相当于一本《三国演义》的长度，可以一次性处理上传最多10个文档，并能够一次性解析多个微信公众号链接、网址，让腾讯元宝具备独有的深度解析能力。

工程平台方面，腾讯混元Large模型由腾讯自研，其训练和推理均基于腾讯Angel机器学习平台。其中，针对 MoE 模型通信效率问题，Angel训练加速框架AngelPTM实现了多项技术优化，性能是主流开源框架DeepSpeed的2.6倍；针对模型推理加速，腾讯Angel机器学习平台和腾讯云智能联合研发 AngelHCF-vLLM框架，在最大限度保障精度的条件下，可节省50%以上显存，相比于业界主流的框架BF16吞吐提升1倍以上。

腾讯混元Large 模型已同步上架腾讯云 TI平台。TI 平台具备实战型大模型精调工具链，提供灵活的大模型训练数据标注能力和开源的数据构建Pipeline，内置 Angel训练和推理加速能力，支持一键启动混元Large精调，帮助用户训练出真正满足业务需求的专属大模型，提升研发效率。

同时，腾讯混元大模型PaaS平台开放支持包含混元 Large 模型在内的十余种混元API 服务调用，可满足文生文、图生文、文生图等不同模态以及角色扮演、FunctionCall、代码等不同专项的模型需求。

业界首个同时支持文字、图像生成3D的开源大模型

腾讯混元3D生成大模型首批开源模型包含轻量版和标准版，轻量版仅需10s即可生成高质量3D资产，目前已在技术社区公开发布，包含模型权重、推理代码、模型算法等完整模型，可供开发者、研究者等各类用户免费使用。

腾讯混元Hunyuan3D-1.0 模型也已上架到腾讯云HAI，通过HAI上更高性价比的GPU算力、模型一键部署能力和可视化图形界面WebUI，有效降低模型开放和部署门槛。

此次腾讯混元开源的3D生成大模型 Hunyuan3D-1.0 ，解决了现有的3D生成模型在生成速度和泛化能力上存在不足的问题，可以帮助 3D 创作者和艺术家自动化生产 3D 资产。该模型具有强大泛化能力和可控性，可重建各类尺度物体，大到建筑，小到工具花草。经过定性、定量多个维度的评估，腾讯混元3D生成大模型的生成质量已达到开源模型的先进水平。

在两个公开的3D数据集 GSO 与 OmniObject3D 上，腾讯混元Hunyuan3D-1.0 效果优于主流开源模型，整体能力属于国际领先水平。从定性角度评估，Hunyuan3D-1.0 与行业领先的开源模型的 3D 生成效果表现对比也显示出较高水平，包括几何细节、纹理细节、纹理-几何一致性、3D合理性、指令遵循等评价维度。

应用上，3D生成相关技术已经开始应用于UGC 3D创作、商品素材合成、游戏3D资产生成等腾讯业务中。其中，腾讯地图基于腾讯混元3D大模型，发布了自定义3D导航车标功能，支持用户创作个性化的 3D 导航车标，相比传统的3D车标重建方案，速度提升了91%。此前，腾讯元宝 APP 也上线了“3D 角色梦工厂”玩法，支持个性化的 UGC 3D 人物生成。

随着自研大模型技术强大的和应用实践经验的丰富，开源已经成为腾讯混元大模型的一个战略选择，未来，腾讯混元也将继续带来更多模态、更多尺寸的开源模型，将更多经过腾讯业务场景打磨和检验的模型开源，促进大模型技术进步和行业生态繁荣。

附：腾讯混元Large访问地址

官网地址：https://llm.hunyuan.tencent.com/

Github地址：https://github.com/Tencent/Tencent-Hunyuan-Large

Hugging Face地址：https://huggingface.co/tencent/Tencent-Hunyuan-Large

Gitee地址：https://gitee.com/Tencent/Tencent-Hunyuan-Large

附：腾讯3D模型访问地址

官网地址：https://3d.hunyuan.tencent.com/

Github 地址：https://github.com/Tencent/Hunyuan3D-1

Hugging Face 模型地址：https://huggingface.co/tencent/Hunyuan3D-1

Gitee地址：https://gitee.com/Tencent/Hunyuan3D-1

高性能应用服务HAI适配混元3D开源模型

免费领取体验资格：https://cloud.tencent.com/act/pro/hai-hunyuan

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

喜欢的话，请点个赞👍和关注吧～

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510924&idx=3&sn=792bd47d19e737de107875abd89cea2d

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术

Ollama v0.4 可运行 Llama 3.2 Vision 啦

掌管OpenAI安全的那个人离职了，离职信曝光

你的LoRA需要更新了！科大讯飞等提出MiLoRA：新颖且高效的LoRA变体

LLM之数据的重要性

智能体首次达到Kaggle Grandmaster水平，华为用结构化推理补齐思维链短板

谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

vLLM这一年的新特性以及后续规划（总结版!）

免费可商用！腾讯混元大语言模型和3D模型正式开源！

FGM：刷新流匹配模型单步文本到图像生成纪录！(浙大&卡内基梅隆&北大&西湖大学)

ROSCon首次落子中国内地！享誉全球的机器人精英盛会马上开始了

ECCV'24 | SAM4MLLM：多模态大语言模型和SAM强强联合

英伟达&斯坦福大学发布GRS：从真实世界观测中生成机器人仿真任务

告别庞然大物,拥抱小巧精悍！面向移动和边缘设备的小语言模型综述

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

突破个性化图像生成局限！MagicTailor：组件可控个性化图像生成创新框架！

NeurIPS`24震撼发布:Diff-eRank大模型评估新指标，精准衡量LLM去噪！

三年前的AI设计芯片造假？谷歌深陷学术不端丑闻，吹哨人被开除!

清华大学最新！2万字长文全面解读多模态生成式AI的前世今生！

大模型推理优化技术-KV Cache量化理论到实战

2024 AI年度报告发布，附十大预测：人形机器人热度下降

2024年大模型LLM还有哪些可研究的方向？听听大佬怎么说

红外图像合成技术综述

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

港理工&OPPO&Stability AI联合发布一致且高效的3D场景编辑方法——SyncNoise

突发！OpenAI正式发布ChatGPT网络搜索，彻底颠覆谷歌！

登上生图排行榜第一的red_panda，是家创业公司，不是国产模型

定制化视频生成新模范！零样本主体驱动，精确运动控制！复旦&阿里等发布DreamVideo-2

基于Gemini！Waymo提出端到端自动驾驶多模态模型EMMA！

苹果最强芯M4 Max首发！官方定位可开发大模型

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了 | TUM&Snap

从文本RAG到多模态RAG！LMU | 构建多模态RAG系统的最佳配置

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

4B和34B精度相当？xGen-MM-Vid (BLIP-3-Video)：你只需32个tokens来表示一个视频

VILA-U：统一多模态理解与生成模型！多模态任务新架构！

神秘模型“小熊猫”一夜刷屏：排名超Flux、Midjourney，网友：一看就中国的

教机器人"倒水"是融入生活的第一步！AR收集和生成演示(ARCADE)框架发布

NeurIPS`24 | 防御对抗性提示攻击!AdvUnlearn让图片生成风险骤降

大模型引领6G革命！最新综述探索「未来通信方式」：九大方向

颜水成团队新作:AI手机迎来重大技术进展！Meissonic:让移动成像技术飞跃

7B新王登基！Zamba 2推理效率比Llama 3提升20%，内存用量更少

初探大模型压缩

首篇！全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

一文读懂：从RAG到多模态RAG

大模型生成RPG游戏，情节角色全自定义！谷歌出品，一作上海交大

图像编辑多任务一网打尽！PromptFix，新型扩散模型&大规模视觉指令数据集（罗切斯特大学&微软）

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

与OpenAI o1技术理念相似，TDPO-R算法有效缓解奖励过优化问题

灵活精确可控编辑！Dice:首个离散扩散模型精确反演方法！

大模型面经—RAG工程实践经验总结

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉