首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

腾讯版 Sora 开源啦！130 亿参数、物理模拟，电影级画质超棒！

2024-12-11 12:16 广东

腾讯开源了当下最为强大的类 Sora 文生视频模型——HunyuanVideo（混元）。此模型拥有 130 亿参数，是目前参数最大的开源视频模型呢。

它具备诸多技术特性，像物理模拟、一镜到底，文本语义还原度极高，动作一致性很强，色彩分明且对比度高。尤为重要的是，混元能够生成带音乐的视频，而这是许多顶级视频模型都不具备的功能。

实话实说，从腾讯展示的 demo 视频来看，其效果根本不逊色于 Luma、可灵、海螺、Runway 等一线商业视频模型，甚至在一些细节方面更为出色。但腾讯却直接将其开源了，着实展现出了财大气粗办大事的风范。

开源地址为：

https://github.com/Tencent/HunyuanVideo/tree/main?tab=readme-ov-file

还有笑脸地址：

https://huggingface.co/tencent/HunyuanVideo

此外，腾讯还展示了能生成背景音乐的视频，目前能提供此功能的只有谷歌和 Meta 的视频模型。

基本上国外网友对腾讯这个视频模型评价很高，一水的 So Cool Good~~

这是一个非常疯狂的视频模型呢。它仿佛拥有着无尽的魔力，能够创造出各种令人惊叹的画面。

从逼真的写实场景到奇幻的敦煌风格，从温馨的小女孩火柴故事到壮阔的骆驼商队景象，每一个视频都仿佛是一个独立的世界，让人沉浸其中，难以自拔。

它的强大之处不仅仅在于能够生成各种不同风格的视频，更在于它能够精准地捕捉每一个细节，让每一个画面都仿佛是真实存在的一样。真的是太疯狂啦！

腾讯的混元视频实在是令人惊叹不已呀。它在实时唇同步方面表现得极为出色，每一个细微的动作和表情都能精准地与语音相匹配，仿佛是真人在演绎一般。

无论是那灵动的嘴唇开合，还是那丰富的表情变化，都达到了前所未有的新高度。这种高度的精准度和逼真度，让观看者仿佛身临其境，沉浸在视频所营造的世界中。真的是让人不得不对腾讯的技术实力赞叹不已呢。

AI 生成的视频似乎正在展现出强大的超越力量呢。如今，随着技术的不断进步，AI 生成的视频在画面质量、情节创意等方面都取得了令人瞩目的成就。

或许在不久的将来，传统电影真的会逐渐成为过去式吗？那些曾经由演员们精心演绎、耗费大量时间和精力拍摄而成的电影，在 AI 生成视频的冲击下，是否会逐渐失去其独特的魅力呢？这是一个值得我们深思的问题呀。

我此刻真是迫不及待呀，就特别想把我最为喜爱的那部电影里那个糟糕的演员给替换掉，换成我内心真正喜欢的人。不仅如此，还想把那些不太好的场景也一并替换掉，让整个电影更加完美。

甚至对于那些希望能够再长一些的经典电影，我也希望能给它们加上额外的一小时，而神奇的 AI 将会帮我实现这一切。

仿佛 AI 就像是一个魔法棒，能让我心中对电影的完美设想变为现实，那种期待感真是难以言喻呢。

混元生成的视频品质那绝对是杠杠的，毋庸置疑。然而，对于普通开发者来说，想要在本地部署并使用它，压力可着实不小呢。

这不，已有国外网友率先使用了这个模型，他们需要 60G 的内存，仅仅生成一个 5 秒的视频，就耗费了 40 分钟的时间。

但不得不说，生成出来的视频质量那是超级棒，效果极为惊人。这也让普通开发者在面对如此高要求的部署和使用时，不禁有些望而却步，但又对混元视频的强大能力深感钦佩。

混元的架构有其独特之处哦。它是在时空压缩的潜在空间上展开训练的呢，并且借助 Causal 3D VAE 来进行压缩。对于文本提示，会用大语言模型进行编码，当作条件来使用。把高斯噪声和条件当作输入后，生成模型就能生成潜在输出啦，再通过 3D VAE 解码器把它解码成图像或视频。

Causal 3D VAE 可是一种特殊的变分自编码器呢，它不但能学习数据的分布，还能理解数据间的因果关系呢。这种模型通过编码器把输入数据压缩成潜在的表示，然后又通过解码器把这个潜在表示重构回原始数据。

传统的 VAE 能捕捉数据的统计特性，不过却会忽略时间序列中的因果关系。而 Causal 3D VAE 是专门为处理具有时间依赖性的数据而设计的。

正是因为引入了因果机制，使得潜在空间中的每个点不仅能反映当前帧的信息，还能包含对未来帧变化趋势的预测呢。这就使得生成的输出更加自然流畅，符合现实世界的物理规律啦，这也是混元视频模型具备物理模拟能力的主要原因呢。

混元可真是厉害呀，它引入了 Transformer 架构呢，还采用了 Full Attention 机制来统一图像和视频的生成呢。并且使用“双流到单流”的混合模型设计来生成视频哦。

在双流阶段，视频和文本数据被分别送进不同的 Transformer 块进行处理呢。这样的设计让模型能够独立地去学习视频和文本数据的特征表示呀，不会受到其他模态的干扰呢。视频流会通过分析帧序列中的时空信息，从而学习到视频内容的运动和变化规律呢。

而文本流则会处理文本标记，去理解语言的语义和上下文信息呢。这两个流是并行处理的，各自都专注于捕捉和学习最适合自己模态的特征呢，这对模型更准确地理解和生成相应的内容是很有帮助的呢。

在单流阶段呀，先前独立处理过的视频和文本特征被整合到一起啦，形成了一种多模态的输入呢，接着就一起被送入到后续的 Transformer 块中啦。这一步可是实现有效多模态信息融合的关键所在呢。在这个阶段呀，模型得把视觉信息和语义信息给结合起来呢，为的就是生成跟文本描述相匹配的视频内容哟。

这种融合可不简单呢，它不仅要求模型得明白每种模态的独立特征，还得理解这些特征之间那复杂的交互关系呢。

通过双流到单流的这种设计呀，混元模型就能在不同的阶段分别去处理和融合多模态信息啦，这大大提高了模型的整体性能呢。在双流阶段，模型能够独立地去学习每种模态的特征呢，而到了单流阶段，模型又能把这些特征给结合起来，生成跟文本描述相匹配的视频内容啦。

目前呢，腾讯已经开放了混元视频模型的试用申请渠道啦，很快就会发布在线产品啦，有兴趣的小伙伴可以去申请哦~

申请试用的地址是：

https://video.hunyuan.tencent.com/appointment/goodcase

并且要说明哦，本文素材来源腾讯混元，要是有侵权的情况呢，请及时联系删除哦。

关注我，免费领AI整合包合集。我是Glen，原鹅厂、字节高级产品经理，现AI公司创始人。我的使命是：让一部分人，看见AI并连接。分享人工智能、互联网、商业、职场等内容，管理精力，提升认知。种一棵树最好的时机是十年前，其次是现在！

最新文章

AI神了，一键视频下载+翻译+配音+字幕！（整合包）

腾讯版 Sora 开源啦！130 亿参数、物理模拟，电影级画质超棒！

AI无限换脸 - Facefusion最新3.0.1版整合包

12.3k Star！这款开源录屏神器，砸掉众多收费软件饭碗啦！

一键部署2000多种AI大模型！不挑环境、不吃配置，神了！

AI一键生成无限流视频，太强了！（整合包）

“躺平”神器NarratoAI，短视频制作从此“开挂”！

又快又好的AI数字人整合包来啦！

AI一键制作表情包神器！（整合包）

PS可删啦！真电商神器 OminiControl 一键 P 图换衣超厉害

AI朗读神器免费开源！一键生成有声书！

最强数字人又来，身体可动！（整合包）

免费无限AI换脸 - Facefusion最新3.0版整合包

开源最强数字人，炸裂更新，有你想要的一切（我已出手）！

AI一键视频风格转换，每个瞬间都精彩！（整合包）

AI一键生成跳舞视频，整合包来了！

GetQzonehistory，一键找回QQ空间那些年错过的好时光

爽！极品AI绘画资源，抓紧收藏！

AI一键视频抠图神器！我果断出手！

手绘风白板工具爆火！83.5k星开源神器，大牛们都在用！

AI一键生成无限流视频，让创意不设限！（整合包）

全网最强数字人，一口气看完！（整合包）

AI轻松剪辑，秒变大片！27.9k星的剪辑神器，小白也能轻松上手

快手可灵开源平替来了！超强AI一键生成视频（整合包）

我直接出手！又快又好的AI数字人整合包来啦！

颠覆视频创作！Genmo Mochi 1，开源模型新巅峰，解锁无限创意！

真·AI神器！一键裁剪、生成、优化视频Tailor

免费无限AI换脸 - Facefusion最新3.0版整合包

Meta开源Llama 3.2，内存缩减40%，速度翻倍，AI效率新突破！

牛！又一个超强AI换脸，免费整合包来啦！

AI换脸神器Luna，秒变网红达人！一站式换脸，快速成型！

开源最强AI数字人，加速又加强版！（整合包）

我直接出手！开源最强数字人Hallo2，拿下！

4K星标！秒截屏+OCR识别+多语翻译，这款开源神器让你效率翻倍！

AI绘画领域新霸主Flux，小显存可玩~

语音秒变文字！揭秘AsrTools如何让智能语音转换更精准

AI神了！一键搞定视频语音识别+字幕翻译！

最强AI单图换脸Roop复活！懒人包已准备好，快来

告别模糊！AI一键提升画质神器AuraSR（整合包）

Cobalt：一键下载无广告视频！

出手！快手可灵开源版，AI视频生成整合包！

揭秘：开源聊天机器人框架Lobe-Chat，性能与美观的完美结合！

有趣的灵魂万里挑一，一键生成平滑形变视频！

实时语音转文本神器：开源工具RealtimeSTT_LLM_TTS让沟通无障碍！

短视频剪辑新手的救星Autocut！一键剪辑视频，GPU加速，效率翻倍！

爆火二次元跳舞小姐姐 - AI免费无限生成！

手把手教你，创立一家员工都是AI的公司

超强AI一键扩图来啦！我当然是出手了

我的AI学习小圈子

AI马赛克克星！TecoGAN技术，一键还原模糊照片清晰度

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉