速递|Google DeepMind发布新视频模型,可以生成2分钟以上视频,分辨率最高可达4k

文摘   2024-12-17 09:38   北京  

图片来源:Google

根据TechCrunch报道,周一,DeepMind宣布推出下一代视频生成AI产品 -Veo 2,也是Veo的继任者。Veo目前已为Google产品组合中的越来越多的产品提供支持。

Veo 2可以生成长达两分钟以上的视频,分辨率最高可达4k(4096 x 2160像素)。值得注意的是,这比OpenAI的Sora能达到的分辨率高出4倍,时长超过6倍。

当然,目前这只是理论上的优势。Google的实验性视频创作工具VideoFX中(Veo 2目前仅在此平台上独家提供,视频最大限制为720p和8秒(Sora最多可生成1080p、20秒的视频)。

Google VideoFXVeo 2在VideoFX中的表现 图片来源:Google

VideoFX目前处于等待名单中,但Google表示,本周将扩大可以访问该工具的用户数量。

DeepMind产品副总裁Eli Collins还告诉TechCrunch,Google将在其Vertex AI开发者平台上提供Veo 2,“随着模型准备好进行大规模使用。”

Collins表示:“在未来几个月里,我们将继续根据用户反馈进行迭代,并寻求将Veo 2的更新能力整合到Google生态系统中的有趣应用案例中……我们预计明年会有更多更新。”

更具可控性

像Veo一样,Veo 2可以根据文本提示(例如“汽车在高速公路上行驶”)或文本加参考图像生成视频。

那么Veo 2有什么新变化呢?DeepMind表示,这款可以生成多种风格视频的模型,具有改进的“物理学和摄像机控制”理解能力,生成的画面更加“清晰”。

所谓“清晰”,DeepMind指的是视频中的纹理和图像更加锐利——尤其是在有大量运动的场景中。至于改进的摄像机控制,它使Veo 2能够更精确地在生成的视频中定位虚拟“摄像机”,并能让摄像机从不同角度捕捉物体和人物。

DeepMind还声称,Veo 2能更真实地模拟运动、流体动力学(如倒入杯中的咖啡)和光的属性(如阴影和反射)。这包括不同的镜头和电影效果,DeepMind表示,还能细致地展现人类表情。

Google Veo 2。图片来源:Google

DeepMind上周向TechCrunch分享了一些从Veo 2生成的精选样本。对于AI生成的视频,它们看起来相当不错——甚至可以说非常出色。Veo 2似乎对折射和复杂液体(如枫糖浆)有很强的把握,并且能模仿皮克斯风格的动画。

但是,尽管DeepMind坚持认为该模型不太可能生成额外的手指或“意外的物体”,Veo 2仍然未能完全跳出“恐怖谷”。

还有这段视频中奇怪的滑溜路面——加上背景中的行人彼此融合,建筑物也有不符合物理规律的外立面:

Google Veo 2。图片来源:Google

Collins承认,仍然需要进一步改进。

他说:“连贯性和一致性是需要改进的地方。Veo可以在几分钟内持续遵循提示,但无法在较长时间内遵循复杂的提示。同样,角色一致性也是一个挑战。生成复杂细节、快速且复杂的动作,以及不断推动现实主义的边界,还有待提高。

Collins补充说,DeepMind正在继续与艺术家和制作人合作,改进其视频生成模型和工具。

“自从我们开始开发Veo以来,我们就与创意人士,如唐纳德·格洛弗(Donald Glover)、周末(The Weeknd)、d4vd等合作,深入了解他们的创作过程,以及技术如何帮助实现他们的愿景。”Collins说,“我们与Veo 1上的创作者的合作为Veo 2的开发提供了有价值的经验,我们期待与受信任的测试人员和创作者合作,获得这款新模型的反馈。”

安全性与训练

Veo 2经过大量视频训练。这是AI模型的普遍工作方式:提供大量数据示例,模型通过识别数据中的模式来生成新的数据。

DeepMind没有透露Veo 2的训练视频具体来自哪里,但YouTube是一个可能的来源;Google拥有YouTube,而DeepMind曾表示,像Veo这样的Google模型“可能”会基于YouTube内容进行训练。

“Veo已通过视频与描述的配对进行训练,”Collins表示,“视频与描述配对是指视频和与视频中发生内容相关的描述。”

Google Veo 2。图片来源:Google

尽管DeepMind通过Google提供了工具,允许网站管理员阻止实验室的机器人从他们的网站提取训练数据,但DeepMind并未提供机制让创作者从现有训练集中删除作品。该实验室及其母公司认为,使用公开数据训练模型属于合理使用,这意味着DeepMind认为自己没有义务征得数据所有者的许可。

并非所有创作者都同意这一点——尤其是考虑到有研究估计,在未来几年,成千上万的电影和电视工作岗位可能会受到AI的影响。包括流行AI艺术应用Midjourney背后的初创公司在内的几家AI公司,正面临指控,指控他们未经同意就使用内容进行训练,侵犯了艺术家的权益。

Collins表示:“我们致力于与创作者及我们的合作伙伴共同工作,达成共同目标。我们将继续与创意社区以及更广泛行业中的人士合作,收集意见并倾听反馈,包括那些使用VideoFX的人。”

得益于今天生成模型的行为方式,它们带来了一些风险,比如复述,这指的是模型生成训练数据的镜像副本。DeepMind的解决方案是基于提示级别的过滤器,包括针对暴力、恶心和露骨内容的过滤器。

Collins表示,Google的赔偿政策目前不适用于Veo 2,直到它广泛发布为止。

Google Veo 2图片来源:Google

为降低深度伪造的风险,DeepMind表示,它正在使用专有的水印技术SynthID,在Veo 2生成的帧中嵌入隐形标记。然而,像所有水印技术一样,SynthID也并非万无一失。

Imagen升级

除了Veo 2,Google DeepMind今天早些时候还宣布了Imagen 3的升级,这是其商业图像生成模型。

Imagen 3的新版本开始向ImageFX的用户推出,Google的图像生成工具,从周一开始。根据DeepMind的说法,它可以生成“更明亮、更具构图感”的图像和照片,风格包括现实主义、印象派和动漫。

“这次升级[到Imagen 3]也能更忠实地遵循提示,并渲染更丰富的细节和纹理,”DeepMind在一篇博客文章中写道,并提供给TechCrunch。

Google ImageFX图片来源:Google

与此模型一起推出的还有ImageFX的UI更新。现在,当用户输入提示时,提示中的关键词将成为“芯片”,并显示下拉菜单,列出相关的建议词。用户可以利用这些芯片来修改自己输入的内容,或从提示下方自动生成的描述行中选择。

来源:

[1] Google DeepMind unveils a new video model to rival Sora, https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/


欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
投稿邮箱:zfinance2023@126.com
稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。
🚀 我们正在招募新一期的Z Explorer

Z Finance
我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
 最新文章