首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

腾讯开源混元MoE和3D大模型，业界首个同时支持文字、图像生成的3D开源大模型

科技 2024-11-06 22:59 湖南

11月5日，腾讯宣布其最新的大规模语言模型“混元Large”和3D生成大模型“Hunyuan3D-1.0”正式开源。

作为国内首个采用Mixture of Experts (MoE) 架构的大型模型，“混元Large”不仅参数规模达到389B，激活参数量52B，上下文长度更是达到了256K，成为目前开源领域中参数规模最大、效果最优的MoE模型之一。

与此同时，腾讯推出的3D生成大模型“Hunyuan3D-1.0”则是业界首个同时支持文字、图像生成3D的开源大模型。

| 混元Large：开源领域的新里程碑

“混元Large”基于MoE架构，该架构通过将任务分配给不同的“专家”网络来提高计算效率和模型性能。

自2024年初以来，腾讯便在国内率先采用了这一架构，与上一代Dense模型相比，总体性能提升了50%。

此外，腾讯还推出了基于MoE架构的多模态理解和基础模型“混元turbo”，在性能、效果和速度等多个方面表现出色，第三方测评结果显示其在国内大模型中排名第一。

在模型结构和训练策略方面，“混元Large”探索了MoE Scaling Law，进行了MoE共享专家路由、回收路由等策略上的创新，并引入了专家特化的学习率适配训练策略，有效提高了不同专家的利用率和稳定性，进一步提升了模型的整体效果。

为了应对SFT（监督微调）通用领域繁多、数学和代码高质量指令数据获取困难等挑战，“混元Large”在Post-Train方面进行了大量的创新优化，包括分门别类地提升数学、逻辑推理和代码等能力，以及在一阶段离线DPO基础上引入了二阶段在线强化策略。

在数据方面，“混元Large”构建了一个覆盖数十个类目的高质量、高多样性的中英文合成数据集，显著提升了模型的效果。

特别是数学和代码方面，效果提升超过了10%。

针对长文领域测评数据集缺乏、方法不够客观等问题，“混元Large”基于公开数据，构建了一套完整的长文阅读理解、多文档摘要总结和长文逻辑推理等领域的数据集——企鹅卷轴（PenguinScrolls），并计划对外开放，以助力大模型在长文方向的技术研究。

“混元Large”的长文能力已经应用于腾讯AI助手“腾讯元宝”上，支持最大256K的上下文长度，相当于一本《三国演义》的长度，能够一次性处理上传最多10个文档，并能够一次性解析多个微信公众号链接和网址，使“腾讯元宝”具备了独特的深度解析能力。

在工程平台方面，“混元Large”由腾讯自研，其训练和推理均基于腾讯Angel机器学习平台。

针对MoE模型的通信效率问题，Angel训练加速框架AngelPTM实现了多项技术优化，性能是主流开源框架DeepSpeed的2.6倍。

此外，针对模型推理加速，腾讯Angel机器学习平台和腾讯云智能联合研发了AngelHCF-vLLM框架，在最大限度保障精度的条件下，可节省50%以上的显存，吞吐量相比业界主流框架BF16提升了1倍以上。

| 3D生成大模型：开创3D生成新纪元

“Hunyuan3D-1.0”作为业界首个同时支持文字和图像生成3D的开源大模型，首批开源模型包括轻量版和标准版。

轻量版仅需10秒即可生成高质量的3D资产，现已在技术社区公开发布，包含模型权重、推理代码和模型算法等完整模型，供开发者和研究者免费使用。

该模型已上架到腾讯云HAI平台，通过HAI提供的高性价比GPU算力、模型一键部署能力和可视化图形界面WebUI，有效降低了模型开放和部署的门槛。

“Hunyuan3D-1.0”解决了现有3D生成模型在生成速度和泛化能力上的不足，具有强大的泛化能力和可控性，能够重建各类尺度的物体，从大型建筑到小型工具和花草。

经过定性和定量多个维度的评估，该模型的生成质量已达到开源模型的先进水平。

在两个公开的3D数据集GSO和OmniObject3D上，“Hunyuan3D-1.0”的效果优于主流开源模型，整体能力处于国际领先水平。

3D生成相关技术已经开始应用于UGC 3D创作、商品素材合成和游戏3D资产生成等腾讯业务中。

例如，腾讯地图基于“Hunyuan3D-1.0”发布了自定义3D导航车标功能，支持用户创作个性化的3D导航车标，相比传统3D车标重建方案，速度提升了91%。

此外，腾讯元宝APP也上线了“3D角色梦工厂”玩法，支持个性化的UGC 3D人物生成。

随着自研大模型技术的强大和应用实践经验的丰富，开源已成为腾讯混元大模型的战略选择。

直达链接：

https://llm.hunyuan.tencent.com/

https://3d.hunyuan.tencent.com/

关注我们：即可加入【AI交流群】，免费领取【AI大礼包】

每日聚焦最新AI，让每个人都能享受到AI带来的乐趣！

最新文章

百度世界2024：发布文心iRAG和无代码工具秒哒

豆包发布国内首款通用图像编辑模型SeedEdit

AMD推出10亿参数开源模型OLMo，性能超越同类产品

字节公布X-Portrait 2，模仿出惟妙惟肖的人物表情

腾讯开源混元MoE和3D大模型，业界首个同时支持文字、图像生成的3D开源大模型

天工AI更新高级搜索功能，可搜索股票、科研信息

Suno推出AI音乐克隆，可复用任意音乐风格

知乎推出专业搜索功能，确保所提供的信息既专业又可靠

AI绘画能力超越FLUX，世界首个能生成长文本图像的模型

小米发布澎湃OS 2，小爱同学升级为超级小爱，体验更加智能

爱诗科技发布PixVerse V3，视频生成技术显著提升，中英文提示词均可理解

智谱推出AutoGLM，AI学会自动操作手机完成日常任务

Claude 3.5大更新，AI学会操作计算机，还能分析数据库

讯飞星火4.0 Turbo发布，多项能力实现领先

Stable Diffusion 3.5发布，消费级硬件开箱即可用

智源开源Emu3多模态大模型，视频理解和生成效果表现优异

百度联合多所高校发布Hallo2，可实现长时间高分辨率音频驱动肖像动画

ChatGPT Windows 桌面程序发布，目前仅特定用户可用

ColorOS 15 发布，以用户为中心的系统级AI升级

联想携手全球AI巨头，推进混合式AI发展

Adobe MAX 2024发布会，Creative Cloud 推出100多项新功能

苹果推出MM1.5大模型，提升AI图像视觉理解能力

Kimi探索版上线，能自主搜索并解决复杂问题

马斯克发布Robotaxi无人驾驶汽车，取消方向盘和踏板

字节扣子全面升级，可一键复制各类型AI模板

AI领域科学家，包揽了诺贝尔物理、化学奖

黑森林实验室发布FLUX 1.1 Pro，目前最先进、最高效的绘画模型

Notion AI发布“一站式”AI助手，可对多平台文件进行分析

猫眼发布“神笔马良”AI，让剧本一键成片

美图MOKI全面开放，三步生成AI创意短片

Llama 3.2发布最强端侧开源模型，手机即可运行

年轻人的第一个对象，东京政府提供AI配对平台

豆包发布AI视频生成模型，提供精准语义理解和高保真画质

基于阿里通义大模型，JetBrains AI编程助手国内发布

可灵1.5版本更新：引入运动笔刷功能，让视频精准运动

无使用次数限制，阿里上线通义万相AI视频平台

豆包推出一套AI音乐生成系统，可多方面控制音乐

元象开源中国最大MoE模型A36B，可无条件免费商用

OpenAI o1发布，理科推理能力超越人类专家博士

国内首家五官科医院，推出AI生成式病历

国家网络安全会发布《人工智能安全治理框架》

苹果发布iPhone 16系列AI手机，Apple Intelligence带来全新交互体验

谷歌AI虚拟试穿，数千件连衣裙任意穿

支付宝推出多个AI助手，理财、生活、健康统统帮你搞定

文心一言APP改名了，升级后覆盖五大生活场景

ComfyUI新版本发布，多项更新优化工作流程

快手发布电商AI换衣神器，想怎么换就怎么换

高性能低功耗，最强SOTA小模型Zamba登场

支持VR实时渲染，实景三维大模型书生3.0开源

Midjourney开放网页端，并宣布进军硬件领域

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉