作者|Jimmy
来源|AI先锋官
可能大多数人对AI生成视频的印象还停留在威尔史密斯吃意面的抽象视频上……
种种魔性画面简直犹如野生菌中毒既视感,因其过于抽象,甚至还吸引到了威尔史密斯本尊的模仿。上面的几段视频分别由Sora和谷歌新发布的Veo2生成。先卖个关子,各位可以猜猜看,哪段视频是由Veo2生成的,哪段视频又是我们的老朋友Sora生成的。话说,就在当地时间的12月16日,也就是OpenAI12日发布会的第7天,谷歌DeepMind突然推出了其第二代视频生成模型-Veo2。不仅支持生成最高4K分辨率的视频,也将最长视频长度提升到了前所未有的2分钟,颇有前来踢馆OpenAI的味道……据DeepMind的发布会报道,Veo2不仅可以更好地理解真实世界的物理规律,还可以理解电影语言,能听懂镜头参数,景深,景别,光效等专业术语甚至还能指定拍摄角度,动作和风格。在盲测中也以号称以两倍的得票率领先于Sora、海螺和可灵。谷歌计划明年初将其上线,还会整合进YouTube用于创作短视频。如果该计划可行,那么今后电影与短视频的拍摄,无疑将进入AI时代,谷歌大有凭借Veo2将Sora拍在沙滩上的势头。在技术方面,Veo2 使用了4D卷积神经网络。4D CNN 结合了3D卷积和时间序列的深度特征提取,允许模型在保持高分辨率的同时,处理视频中的动作细节和时空关系。值得一提的是,Veo2还采用了独特的GAN 架构,其中,生成器负责生成视频内容,判别器则判断生成视频与真实视频的差异,通过不断的对抗优化,提升了模型生成的逼真度。前三个视频的画面看起来更符合现实世界的物理规律,它们是由Veo2生成,第四个视频则由Sora生成。从所发布作品来看,Veo2的确要优于Sora,但Veo2真的如谷歌宣传的那样脚踢Sora、拳打可灵,是 AI 视频领域的新王吗?在其正式开放前,还难定论。希望它不会如 sora 那样跳票。我们不妨做下简单分析,在学习机制方面,Veo2和Sora同样都采用了自注意力机制(Self-Attention)来捕捉长时间跨度内的视频内容和情感信息。而在最关键的复杂场景处理方面,Sora基于RNN和 Transformer这种专门设计用于序列数据的架构。对于复杂的情节生成,Sora 能够非常好地保持整个情节的连贯性,并处理长时间跨度内的情感或语义变化。在小编看来,Veo2在上线后很可能同样面临与sora相同的问题,模型在展示时,通常是针对某些特定的生成任务,比如单一场景或简单的叙事任务。在实际应用中,模型可能需要处理更复杂的、长时间跨度的情节、更多的变量,甚至需要根据用户的输入生成高度多样化的内容,这对模型的性能提出了更高的要求。所以,不知Veo2上线后是否同样会面临和Sora一样,不如预期,被用户疯狂吐槽。这里面,用户过高的期望、硬件资源限制、训练数据局限性以及生成内容的复杂性等因素,都会成为限制Veo2的性能的重要因素。Google也坦言,其生成模型并非“完美”。视频生成过程中难免会出现一些“幻觉”,比如多出的手指或意外出现的物体。扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
![]()
![]()
![]()