腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

科技 2024-12-03 20:27 北京

通过超大数据、130亿参数和自研3D架构提升视频生成能力。

作者 | 汪越

编辑 | 漠影

智东西12月3日报道，今天，腾讯混元大模型正式上线视频生成能力，这是在腾讯文生文、文生图、3D生成之后的最新技术进展。

据腾讯混元多模态生成技术负责人凯撒现场介绍，此次更新中，HunYuan-Video模型经历了四项核心改进：

1、引入超大规模数据处理系统，提升视频画质；

2、采用多模态大语言模型（MLLM），优化文本与图像的对齐；

3、使用130亿参数的全注意力机制（DIT）和双模态ScalingLaw，增强时空建模与动态表现；

4、采用自研3D VAE架构，提升图像和视频的重建能力。

与此同时，腾讯宣布将这款拥有130亿参数规模的视频生成模型开源。目前，该模型已在APP与Web端发布，其标准模式下的视频生成大约需要120秒完成。

01.

腾讯HunYuan-Video模型技术升级与应用拓展

腾讯对HunYuan-Video模型进行了四项技术升级，涵盖了数据处理系统、文本编码、算力优化等多个方面，提升了视频生成的质量与可控性。此外，腾讯还通过微调、应用拓展及开源等措施进一步强化了模型的实际应用能力。

1、四项关键技术升级

首先，模型采用了一个超大规模的数据处理系统，能够混合处理图像与视频数据。该系统包括文字检测、转景检测、美学打分、动作检测、准确度检测等多个维度的功能，进一步提升视频画质。

其次，模型引入了多模态大语言模型（Decoder-only MLLM）作为文本编码器，提升了复杂文本的理解能力，同时支持多语言理解。这一升级使得文本与图像之间的对齐性得到了加强，能够根据用户提供的提示词精确生成符合要求的视频内容。

另外，模型架构使用了130亿参数的全注意力机制（DIT）和双模态ScalingLaw，能够在视频生成中有效利用算力和数据资源，增强时空建模能力，并优化视频生成过程中的动态表现。此架构支持原生转场，可实现了多个镜头间的自然切换，并保持主体一致性。

最后，HunYuan-Video采用了自研的3D VAE架构，以提升图像和视频重建的能力，特别在小人脸和大幅运动场景下表现更加流畅。

2、六大微调领域强化定向能力

在预训练之后，腾讯混元大模型目前正在进行微调（SFT）工作，进一步增强其视频生成的定向能力。HunYuan-Video在六个关键方面进行了专项微调，包括画质优化、高动态效果、艺术镜头、手写文本、转场效果以及连续动作的生成，其中一些调整仍在进行中。

3、Recaption模型与两种生成模式

此外，HunYuan-Video还推出了Recaption模型，提供了两种生成模式：常规模式和导演模式。

常规模式侧重于简化用户输入的文本，强化自我修正功能，适合专业用户进行精细操作；而导演模式则侧重于提升画面质感，强化镜头运用、光影设计和构图美学等方面的描述，适合非专业用户使用。

4、性能评估与同行对比

据了解，混元大模型经过了千题盲测的定量分析，在总体排序中以41.3%的表现领先，优于其他模型如CNTOpA（37.7%）、CNTopB（37.5%）和GEN-3（27.4%）。

在特定场景类别中，混元表现尤为突出，特别是在处理人文场景、人工场所以及多主体组合场景时，其生成效果优于其他模型。在物品和动物/微生物类目中，混元也具有一定的优势，而在虚拟场景和自然场景的生成效果相对较弱。

从维度来看，混元运动质量的合格率排名第一，文本与视频的对齐合格率位居第二。但从数据中可以看出，行业里的这些模型总体成功率都仍然较低，视频生成的内容仍存在一定的优化空间。

5、视频配音、配乐与数字人技术

除了基础的视频生成能力外，腾讯还拓展了HunYuan-Video的应用功能，推出了视频配音与配乐功能，能够为生成的视频提供音效与背景音乐，进一步提升视频的完整性和表现。

此外，腾讯还推出了驱动2D照片数字人的技术，支持通过语音、姿态和表情等多种驱动方式控制照片数字人的动态表现，增强了生成内容的自然度、一致性和可控性。

6、开源发布与生态支持

目前，腾讯宣布开源该视频生成大模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型，可供企业与个人开发者免费使用和开发生态插件。

腾讯混元视频生成开源项目相关链接如下：

官网：
https://aivideo.hunyuan.tencent.com

代码：
https://github.com/Tencent/HunyuanVideo

模型：
https://huggingface.co/tencent/HunyuanVideo

技术报告：
https://github.com/Tencent/HunyuanVideo/blob/main/assets/hunyuanvideo.pdf

02.

腾讯混元的下一步：
提高视频分辨率和生成速度

腾讯混元多模态生成技术负责人凯撒谈道，文生视频与图像生成在技术上有着密切联系。虽然视频生成建立在图像生成的基础上，但它对动态时序信息和场景变化处理能力提出了更高的要求。

视频生成的一个核心挑战是在快速变化的场景中维持图像的连贯性和一致性。虽然图像生成技术已经取得了显著的进步，但将其扩展至动态视频生成仍面临许多技术障碍。未来，图像与视频生成可能会趋向一体化发展，但这需要在多个技术领域取得突破。

此外，视频主体的一致性问题也是关键所在。当前的技术能够在较短时间（约5秒）内较好地保持一致性，但随着视频长度增加，尤其是在镜头切换时，保持主体一致性就会变得困难，这在行业内是一个普遍存在的难题。

关于视频分辨率，目前大多数视频生成技术能够达到720P。腾讯混元计划逐步提升这一标准，首先达到1080P，最终目标是4K乃至8K，以增强视觉体验中的清晰度与细节表现力。

算力的提升对于提高视频分辨率及加快生成速度至关重要。腾讯混元正在探索两条主要路径：一是通过改进算法来直接提升分辨率；二是利用放大算法来提高视频质量。这两方面的工作都在积极进行中。

目前，腾讯混元已经开始内部测试其视频生成功能，并计划逐步推向市场应用。然而，要实现大规模商业化还需经过一定的时间以及市场的验证。

03.

结语：AI视频生成领域竞争加剧

随着腾讯混元大模型视频生成能力的发布，AI视频生成领域的竞争格局进一步加剧。除了腾讯，国外AI视频生成平台如Runway、Luma、Pika，以及国内的快手可灵、字节即梦、智谱清影等也在争夺市场份额，形成了多方竞争的态势。

开源已成为腾讯混元大模型的一个战略选择。从年初以来，腾讯混元系列模型的开源速度不断加快。此前，腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此，腾讯混元系列大模型已实现全面开源。

（本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容，未经账号授权，禁止随意转载。）

GenAICon 2024上海站预告

12月5-6日，智猩猩联合主办的2024中国生成式AI大会（上海站）将举办。主会场将进行大模型峰会、AI Infra峰会，分会场将进行端侧生成式AI、AI视频生成和具身智能三场技术研讨会。50+位重磅嘉宾将参与主题演讲、高端对话和圆桌Panel。完整议程已公布，上下滑动了解报名⬇️

智东西

智能产业新媒体！智东西专注报道人工智能主导的前沿技术发展，和技术应用带来的千行百业产业升级。聚焦智能变革，服务产业升级。

最新文章

OpenAI最强推理模型o3发布！AGI测试能力暴涨，最难数学测试分数碾压同行

专用、类人形、人形全面布局：普渡机器人解答了具身智能商业化的终极命题

比小米便宜，比Meta高清，国内首款量产AI眼镜999元开售

AI创企暴雷！90后女创始人欺诈被捕：涉案7000万，或面临40年刑期

苹果AI落地中国生变：正接触腾讯和字节，谁还有机会

深圳重磅AI利好！5亿元训力券，1亿元模型券，重奖爆款智能硬件产品

一口气融728亿！AI融资新纪录，比OpenAI还吸金，华人联合创办

黄仁勋深度专访：谈英特尔CEO下课，回应美国半导体管制，用AI写演讲稿

24万“AI民工”血汗，哺出一个95后亿万富豪

深圳教授联手三星高管押注具身智能！被联想创投等看中了

清华系大模型独角兽又融资，30亿元！今年商业化收入翻倍

学校新来的AI体育老师，量身定制每天一小时最合理运动计划

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

清华系出手！全球第一款端侧全模态理解模型开源

国产AI算力黑马崛起，解密英博云全新产品矩阵

XR一夜变天，谷歌“重做安卓”！三星MR头显亮牌，硬刚苹果

2024 ACL Fellow出炉！全球九位科学家入选，华人有四位

后Scaling Law时代，需要一份向量数据库的琅琊榜

趣丸科技贾朔：探索音乐创作的技术平权——AI音乐的创新实践

谷歌最强大模型登场！掀Agent风暴，放AI芯片大招，深夜突袭OpenAI

让手机、PC、汽车、AIoT等“终端”都用好AI，搞定统一生态这事太重要了

靠欺骗AI，他们提走40万元

清华系大模型，又拿数亿元融资！

投影技术的第三次革命！从3LCoS到全产业链蜕变

Sora上线挤爆服务器！1个视频3块钱，网友已玩疯，实测对比可灵海螺

最新国内AI手机排行榜，让人有点破防

人大北航新算法登Nature子刊：破解复杂时空物理场重建难题

杨植麟终于回应，承认张予彤身份！朱啸虎还击：回避了所有关键问题

2024中国生成式AI大会上海站圆满收官，第二日AI Infra峰会演讲精华一文看尽

探访棋坛巅峰赛事：大模型体验区火爆，AI拉满存在感

最强OpenAI o1深夜发布！至尊版套餐每月1450元，支持无限次访问

2024中国生成式AI大会上海站开幕！首日大模型峰会燃爆魔都，17位大咖密集输干货

瞄准万物智联时代安全痛点，安谋科技用硬核技术创新强化PSA安全生态

谷歌发布世界模型Genie 2！一键生成3D游戏，人和AI都能玩，时长多达1分钟

“消失”的小米副总裁

亚马逊年末甩王炸！6款大模型、3nm AI芯片、全球最大AI计算集群，苹果罕见站台

智能手机的未来：端侧大模型重塑用户体验｜vivo AI全球研究院AI算法技术总监李方圆演讲预告

股价飙涨790%！今年最火AI妖股诞生，比英伟达还猛，创始人跻身百亿富豪榜

李飞飞空间智能上新！一张图就可以生成3D世界，能像玩游戏一样互动

生成式AI驱动实时互动的技术变革与体验革新｜声网生成式AI产品负责人毛玉杰演讲预告

腾讯混元上线文生视频并开源，120秒内成片！还有提示词建议

突发！英特尔CEO基辛格下课，立即生效

谁困住了具身智能？16位人形机器人高管激辩，戳破行业真相

GenAICon 2024上海站分会场议程公布！3场研讨会17位学者专家拆解端侧AI、视频生成与具身智能

联想AIPC端侧智能体｜联想集团首席研究员、联想研究院人工智能实验室研发总监师忠超演讲预告

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

中国大模型生存战：巨头围剿，创业难熬

傅盛捅破AI行业窗户纸！百模大战靠数据背后是什么逻辑？

前小米全球副总裁AI创业！获谷歌、OpenAI联创投资，2个月估值36亿

MiniMax副总裁刘华：多模态大模型开放平台探索与实践｜演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉