首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

腾讯版Sora开源！最强开源视频模型，130亿参数、物理模拟、电影级画质！

文摘 2024-12-04 05:41 河北

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

腾讯开源了目前最强的类Sora文生视频模型——HunyuanVideo（混元）。

混元有130亿参数，也是目前参数最大的开源视频模型，具备物理模拟、一镜到底、文本语义还原度高、动作一致性强、色彩分明、对比度高等技术特性。最重要的是，混元可以生成带音乐的视频，这是目前很多顶级视频模型所不具备的功能。

说实话，从腾讯展示的demo视频来看，根本不比Luma、可灵、海螺、Runway那些一线商业视频模型差，甚至在一些细节方面更强。但就是直接开源了，果然是财大气粗办大事。

开源地址：https://github.com/Tencent/HunyuanVideo/tree/main?tab=readme-ov-file

笑脸：https://huggingface.co/tencent/HunyuanVideo

混元生成的视频

话不多说，咱们先直接看看生成的视频效果吧。

每次有新视频模型出来，威尔斯密斯吃面条那是必备的小甜点。这次来个国潮，熊猫吃火锅~

提示词：一只熊猫在餐厅吃火锅，写实风格。

一个敦煌雕塑风格的神仙，身材曼妙，弹着琵琶，在博物馆中轻盈起舞，衣袂飘飘。

冬天穿着红色连帽衣的小女孩划燃了一根火柴，天色昏暗，地上有一层积雪，天上还下着小雪。火柴的火焰映照着女孩的脸忽明忽暗。

远景镜头：骆驼商队在无尽的金色沙丘间蜿蜒前行，如同在大地上游动的长蛇。落日将沙漠染成深橙色，天空呈现出渐变的紫红。

特写镜头：年迈向导布满皱纹的手指捻起一把细沙，任其随风飘散。他的头巾在风中轻扬，饱经风霜的脸上映着落日的余晖，眼神沉稳而睿智。电影级细节表现。

一只熊猫在上海街骑单车，写实风格

此外，腾讯还展示了可以生成背景音乐的视频，目前能提供这个功能的也只有谷歌和Meta的视频模型。

提示词：联动场景，果园中演唱黑凤梨。

木地板上的脚步声。

基本上国外网友对腾讯的这个视频模型评价很高，一水的So Cool Good~~

非常疯狂的视频模型

腾讯的混元视频令人惊叹。实时唇同步、表情和动作都达到了新高度！

AI生成的视频正在超越，传统电影将成过去式？

我迫不及待地想把我最喜欢的电影中那个糟糕的演员换成我真正喜欢的人，替换掉不好的场景，甚至给那些希望更长的经典电影加上额外的一小时，AI会帮我实现的。

混元生成的视频品质是没的说，只是普通开发者要想使用在本地部署还是相当有压力的，有国外网友已经使用了这个模型，60G内存，生成一个5秒视频，用了40分钟~但质量是超级好。

混元架构简单介绍

混元在时空压缩的潜在空间上进行训练，并通过 Causal 3D VAE 进行压缩。文本提示则使用大语言模型进行编码，并用作条件。将高斯噪声和条件作为输入，生成模型生成潜在输出，通过 3D VAE 解码器将其解码为图像或视频。

Causal 3D VAE是一种特殊的变分自编码器，不仅能够学习数据的分布，还能够理解数据之间的因果关系。这种模型通过编码器将输入数据压缩成一个潜在的表示，然后通过解码器将这个潜在表示重构回原始数据。

传统的VAE可以捕捉数据的统计特性，但会忽略时间序列中的因果关系。而Causal 3D VAE则特别设计用来处理具有时间依赖性的数据。

通过引入因果机制，确保潜在空间中的每个点不仅反映了当前帧的信息，还包含了对未来帧变化趋势的预测。这使得生成的输出更加自然流畅，符合现实世界的物理规律，这也是混元视频模型具备物理模拟的主要原因。

混元还引入了Transformer架构，并采用Full Attention机制来统一图像和视频生成。使用“双流到单流”混合模型设计来生成视频。

在双流阶段，视频和文本数据被分别送入不同的Transformer块进行处理。这种设计允许模型独立地学习视频和文本数据的特征表示，而不受其他模态的干扰。视频流通过分析帧序列中的时空信息，学习到视频内容的运动和变化规律。

文本流则通过处理文本标记，理解语言的语义和上下文信息。两个流并行处理，各自专注于捕捉和学习最适合自己模态的特征，这有助于模型更准确地理解和生成相应的内容。

在单流阶段，经过独立处理的视频和文本特征被合并，形成一种多模态的输入，然后一起输入到后续的Transformer块中。这一步骤是实现有效多模态信息融合的关键。在这一阶段，模型需要将视觉信息和语义信息结合起来，以生成与文本描述相匹配的视频内容。

这种融合不仅要求模型理解每种模态的独立特征，还要求它能够理解这些特征之间的复杂交互关系。

通过双流到单流的设计，混元模型能够在不同的阶段分别处理和融合多模态信息，这提高了模型的整体性能。在双流阶段，模型能够独立地学习每种模态的特征，而在单流阶段，模型能够将这些特征结合起来，生成与文本描述相匹配的视频内容。

目前，腾讯已经开放了混元视频模型的试用申请渠道，很会便会发布在线产品，有兴趣的小伙伴可以去申请。

申请试用：https://video.hunyuan.tencent.com/appointment/goodcase

本文素材来源腾讯混元，如有侵权请联系删除

END

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最新文章

所有用户无限用Sora，OpenAI放圣诞福利！

极限压缩380倍！比OpenAI的Whisper更高效，开源模型超2000颗星

OpenAI 12天直播大盘点！o3、Sora，一次看完所有新技术

AI工具 | AI商品图工具合集

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

函子科技CEO蒋耀锴，将出席“ISIG-AIGC多模态技术与应用峰会”

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

AI——有自由意志会怎样？

AI大模型/AIGC多模态/RPA超级自动化/低代码四大科技峰会来袭！

集思科技销售VP陈曙光，将出席“ISIG-AIGC多模态技术与应用峰会”

讯飞机器人超脑平台总经理刘可为，将出席“ISIG-AI大模型技术与应用发展峰会”

谷歌版o1模型发布：霸榜排名第一，深度展示思维链

ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能体了

苹果正与腾讯、字节跳动洽谈，在iPhone集成类ChatGPT

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

聚力维度创始人&CEO赵天奇，将出席“ISIG-AIGC多模态技术与应用峰会”

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软全球黑带技术专家武帅，将出席“ISIG-AI大模型技术与应用发展峰会”

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

重磅来袭！HealthAI 2024健康智能挑战赛启动报名

英伟达发布微型大模型计算机，每秒计算67万亿次

达观数据联合创始人张健，将出席“ISIG-AI大模型技术与应用发展峰会”

壹沓科技大模型产品总监王琰元，将出席“ISIG-AI大模型技术与应用发展峰会”

重磅！OpenAI开放满血o1模型API，成本暴降60%

开启智能之旅！RPA超级自动化与流程挖掘峰会火热报名中~

Liquid AI获2.5亿美元融资，创新液态大模型

ChatGPT搜索大更新！实时搜索、高级语音，AI搜索时代来了

AI工具 | AI内容检测合集

AI加速，码力全开！低代码/零代码技术与应用发展峰会火热报名中~

超过Sora！谷歌发布Veo 2，支持4K、逼真到难以分辨

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

微软发布Phi-4，最强小模型！参数极小、超GPT-4o

IBM推出化学大模型：可精准预测分子性质和行为

突破性功能！OpenAI发布ChatGPT Projects，万能工具箱上线！

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软 Azure AI 荣耀登榜，2024最受开发者欢迎的 AI 应用开发平台！

极客说｜深度对比：SFT、ReFT、RHLF、RLAIF、DPO、PPO

AI现身2024国际象棋世界冠军赛！世界棋王丁立人守擂，看AI如何让国际象棋更有趣

重磅！ChatGPT解锁高级视频对话、屏幕共享，实时交互时代

ISIG年度盛会来袭！RPA/低代码/AI大模型/AIGC多模态四大科技峰会共掀数字化创新浪潮

AI Agent成主打！谷歌发布超强多模态大模型—Gemini 2.0

极客说｜多智能体时代

王者降临！苹果全家桶接入ChatGPT，重塑iPhone、iPad 、Siri

多模态解锁无限可能！AIGC多模态技术与应用峰会报名开启~

人人可用，AI Copilot 场景学习资料大放送！

史上最贵！首个AI Agent程序员商业化，比ChatGPT Pro贵2倍

突发！OpenAI发布Canvas，ChatGPT新增史诗级功能

AI应用 | 可口可乐AI广告惹争议

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉