腾讯版 Sora 开源啦!130 亿参数、物理模拟,电影级画质超棒!

2024-12-11 12:16   广东  


腾讯开源了当下最为强大的类 Sora 文生视频模型——HunyuanVideo(混元)。此模型拥有 130 亿参数,是目前参数最大的开源视频模型呢。

它具备诸多技术特性,像物理模拟、一镜到底,文本语义还原度极高,动作一致性很强,色彩分明且对比度高。尤为重要的是,混元能够生成带音乐的视频,而这是许多顶级视频模型都不具备的功能。

实话实说,从腾讯展示的 demo 视频来看,其效果根本不逊色于 Luma、可灵、海螺、Runway 等一线商业视频模型,甚至在一些细节方面更为出色。但腾讯却直接将其开源了,着实展现出了财大气粗办大事的风范。

开源地址为:

https://github.com/Tencent/HunyuanVideo/tree/main?tab=readme-ov-file

还有笑脸地址:

https://huggingface.co/tencent/HunyuanVideo

此外,腾讯还展示了能生成背景音乐的视频,目前能提供此功能的只有谷歌和 Meta 的视频模型

基本上国外网友对腾讯这个视频模型评价很高,一水的 So Cool Good~~

这是一个非常疯狂的视频模型呢。它仿佛拥有着无尽的魔力,能够创造出各种令人惊叹的画面。

从逼真的写实场景到奇幻的敦煌风格,从温馨的小女孩火柴故事到壮阔的骆驼商队景象,每一个视频都仿佛是一个独立的世界,让人沉浸其中,难以自拔。

它的强大之处不仅仅在于能够生成各种不同风格的视频,更在于它能够精准地捕捉每一个细节,让每一个画面都仿佛是真实存在的一样。真的是太疯狂啦!

腾讯的混元视频实在是令人惊叹不已呀。它在实时唇同步方面表现得极为出色,每一个细微的动作和表情都能精准地与语音相匹配,仿佛是真人在演绎一般。

无论是那灵动的嘴唇开合,还是那丰富的表情变化,都达到了前所未有的新高度。这种高度的精准度和逼真度,让观看者仿佛身临其境,沉浸在视频所营造的世界中。真的是让人不得不对腾讯的技术实力赞叹不已呢。

AI 生成的视频似乎正在展现出强大的超越力量呢。如今,随着技术的不断进步,AI 生成的视频在画面质量、情节创意等方面都取得了令人瞩目的成就。

或许在不久的将来,传统电影真的会逐渐成为过去式吗?那些曾经由演员们精心演绎、耗费大量时间和精力拍摄而成的电影,在 AI 生成视频的冲击下,是否会逐渐失去其独特的魅力呢?这是一个值得我们深思的问题呀。

我此刻真是迫不及待呀,就特别想把我最为喜爱的那部电影里那个糟糕的演员给替换掉,换成我内心真正喜欢的人。不仅如此,还想把那些不太好的场景也一并替换掉,让整个电影更加完美。

甚至对于那些希望能够再长一些的经典电影,我也希望能给它们加上额外的一小时,而神奇的 AI 将会帮我实现这一切。

仿佛 AI 就像是一个魔法棒,能让我心中对电影的完美设想变为现实,那种期待感真是难以言喻呢。

混元生成的视频品质那绝对是杠杠的,毋庸置疑。然而,对于普通开发者来说,想要在本地部署并使用它,压力可着实不小呢。

这不,已有国外网友率先使用了这个模型,他们需要 60G 的内存,仅仅生成一个 5 秒的视频,就耗费了 40 分钟的时间。

但不得不说,生成出来的视频质量那是超级棒,效果极为惊人。这也让普通开发者在面对如此高要求的部署和使用时,不禁有些望而却步,但又对混元视频的强大能力深感钦佩。

混元的架构有其独特之处哦。它是在时空压缩的潜在空间上展开训练的呢,并且借助 Causal 3D VAE 来进行压缩。对于文本提示,会用大语言模型进行编码,当作条件来使用。把高斯噪声和条件当作输入后,生成模型就能生成潜在输出啦,再通过 3D VAE 解码器把它解码成图像或视频。

Causal 3D VAE 可是一种特殊的变分自编码器呢,它不但能学习数据的分布,还能理解数据间的因果关系呢。这种模型通过编码器把输入数据压缩成潜在的表示,然后又通过解码器把这个潜在表示重构回原始数据。

传统的 VAE 能捕捉数据的统计特性,不过却会忽略时间序列中的因果关系。而 Causal 3D VAE 是专门为处理具有时间依赖性的数据而设计的。

正是因为引入了因果机制,使得潜在空间中的每个点不仅能反映当前帧的信息,还能包含对未来帧变化趋势的预测呢。这就使得生成的输出更加自然流畅,符合现实世界的物理规律啦,这也是混元视频模型具备物理模拟能力的主要原因呢。

混元可真是厉害呀,它引入了 Transformer 架构呢,还采用了 Full Attention 机制来统一图像和视频的生成呢。并且使用“双流到单流”的混合模型设计来生成视频哦。

在双流阶段,视频和文本数据被分别送进不同的 Transformer 块进行处理呢。这样的设计让模型能够独立地去学习视频和文本数据的特征表示呀,不会受到其他模态的干扰呢。视频流会通过分析帧序列中的时空信息,从而学习到视频内容的运动和变化规律呢。

而文本流则会处理文本标记,去理解语言的语义和上下文信息呢。这两个流是并行处理的,各自都专注于捕捉和学习最适合自己模态的特征呢,这对模型更准确地理解和生成相应的内容是很有帮助的呢。

在单流阶段呀,先前独立处理过的视频和文本特征被整合到一起啦,形成了一种多模态的输入呢,接着就一起被送入到后续的 Transformer 块中啦。这一步可是实现有效多模态信息融合的关键所在呢。在这个阶段呀,模型得把视觉信息和语义信息给结合起来呢,为的就是生成跟文本描述相匹配的视频内容哟。

这种融合可不简单呢,它不仅要求模型得明白每种模态的独立特征,还得理解这些特征之间那复杂的交互关系呢。

通过双流到单流的这种设计呀,混元模型就能在不同的阶段分别去处理和融合多模态信息啦,这大大提高了模型的整体性能呢。在双流阶段,模型能够独立地去学习每种模态的特征呢,而到了单流阶段,模型又能把这些特征给结合起来,生成跟文本描述相匹配的视频内容啦。

目前呢,腾讯已经开放了混元视频模型的试用申请渠道啦,很快就会发布在线产品啦,有兴趣的小伙伴可以去申请哦~

申请试用的地址是:

https://video.hunyuan.tencent.com/appointment/goodcase

并且要说明哦,本文素材来源腾讯混元,要是有侵权的情况呢,请及时联系删除哦。


Glen
关注我,免费领AI整合包合集。我是Glen,原鹅厂、字节高级产品经理,现AI公司创始人。我的使命是:让一部分人,看见AI并连接。分享人工智能、互联网、商业、职场等内容,管理精力,提升认知。种一棵树最好的时机是十年前,其次是现在!
 最新文章