RUNWAY发布Gen-3 Alpha,AI视频DiT时代来了

文摘   2024-06-18 11:02   浙江  

最近的AI视频又开始热闹起来了,在Sora发布四个月后,大家并没有等到Sora,但是Sora背后的技术框架DiT( Diffusion Transformers)开始被广泛应用。并且有逐渐成为主流的趋势。

一开始是快手发布了可灵,第一个最接近Sora的文生视频大模型。

然后是Luma发布了他们的Dream Machine视频模型,并且成为第一个可以使用文生视频的DiT架构的AI视频工具。

我很奇怪,Runway这段时间过于安静了,一定是在憋大招。果不其然,它终于发布了Gen-3 Alpha,从案例上看很明显用的是DiT的技术。

官方宣传页面上也提到了世界大模型。我们没有等来Sora,但是等来了世界大模型的全面开花,Openai一直以来都在给大家指明技术方向。

无论是可灵,luma还是这一次的Gen-3,在视频的真实性,连贯性上都得到了大幅的提升,并且这次的Runway发布的Gen-3,之前一系列可控性的功能将会全部应用到上面去,包括图生视频,以及运动笔刷和相机运动等,视频的可控性runway相对于其它产品会更加丰富。

接下来是官方发布的一些Demo,并且承诺会在几天后正式发布给所有人。



介绍 Gen-3 Alpha:Runway 的新一代视频生成基础模型。

Gen-3 Alpha 可以创建细节丰富的视频,包含复杂的场景变化、多种电影化选择和详细的艺术指导。

https://runwayml.com/blog/introducing-gen-3-alpha/


Gen-3 Alpha 是即将推出的一系列模型中的首个由 Runway 在一个为大规模多模态训练构建的新基础设施上训练而成,代表了我们迈向构建通用世界模型目标的重要一步。

提示:日本城市中一辆高速行驶的火车窗户上,隐约映出一位女性的倒影。


经过视频和图像的联合训练,Gen-3 Alpha 将为 Runway 的文本生成视频、图像生成视频和文本生成图像工具提供支持,并将现有的控制模式如 Motion Brush、高级摄像控制和导演模式,以及即将推出的工具,提供更加细致的结构、风格和运动控制。

Gen-3 Alpha 还将发布一套新的安全措施,包括新的改进的内部视觉审核系统和 C2PA 溯源标准。

提示:一个宇航员在里约热内卢的小巷中奔跑。


Gen-3 Alpha 从零开始为创意应用而训练。这是由跨学科团队,包括研究科学家、工程师和艺术家们共同努力的成果。

提示:第一人称视角穿越森林到达一座废弃的房子,再到达海浪。


作为 Gen-3 模型家族的一部分,我们一直与领先的娱乐和媒体组织合作,创建 Gen-3 Alpha 的定制版本。
Gen-3 模型的定制化允许对风格更有控制力和一致性的角色设计,满足特定的艺术和叙事要求。
提示:一个老年男人在侧光下弹钢琴。

提示:在1980年代的厨房中,一只鸵鸟慢慢地以电影镜头推进的方式站着。

提示:一个中年秃头的悲伤男子在一顶卷发假发和一副太阳镜突然落到他头上时变得开心。

提示:一尊巨大的古代战士雕像矗立在悬崖边上。摄像机慢慢地转了一圈,捕捉到了战士的侧影。

提示:一个空的仓库,镜头逐渐拉近,地面上涌现出一个奇妙的丛林。

提示:手持相机快速移动,手电筒的光照在一个老巷子的白色旧墙上,墙上有黑色涂鸦拼写出“Runway”。

这十个Demo一个字都没提Sora,但是处处能看到Sora的影子😂。AI视频的第一赛季基本上是PPT动画,第二赛季现在正式拉开了,上一代的技术以Runway的发布可以基本上算是彻底淘汰了,但是DiT会是AI视频的重点么?取代它的又会是什么?

版权声明:【除原创作品外,本平台所使用的文章、图片、视频及音乐属于原权利人所有,因客观原因或会存在不当使用的情况,如,部分文章或文章部分引用内容未能及时与原作者取得联系,或作者名称及原始出处标注错误等情况,非恶意侵犯原权利人相关权益,敬请相关权利人谅解并与我们联系。


END





杭州文创数字科技研究院
杭州文创数字科技研究院由杭州市科学技术局指导,致力于通过数字艺术品应用与衍生场景研究、数字IP商业化创新和沉浸式场景营造、乡村数字化治理开发、虚拟主播场景应用、数字媒体社群传播、3D数字设计应用等服务推进文化数字科技创新和应用场景有效落地。
 最新文章