今年6月,Runway推出了一个名为Gen-3 Alpha的新型文本到视频合成模型。它可以将被称为"提示词"的文字描述转换为无声的高清视频片段。我们有机会使用了这个模型,现在想分享我们的测试结果。我们的测试表明,精心crafting提示词并不如匹配可能存在于训练数据中的概念那样重要,而且要获得有趣的结果可能需要多次生成并进行选择性的cherry-picking。
一些基本提示词测试
我们首先尝试了一些过去图像合成测试中的标准提示词,如喝啤酒的猫、带CRT电视机的野蛮人和宇宙女王。我们还尝试了Ars Technica的吉祥物"月鲨"。下面你会看到所有这些结果和更多。
由于积分有限,我们无法重新运行它们并进行cherry-picking,所以你看到的每个提示词的结果都是我们从Runway得到的唯一生成结果。
"The moonshark jumping out of a computer screen and attacking a person"
"A cat in a car drinking a can of beer, beer commercial"
"Robotic humanoid animals with vaudeville costumes roam the streets collecting protection money in tokens"
"A basketball player in a haunted passenger train car with a basketball court, and he is playing against a team of ghosts"
"video game footage of a dynamic 1990s third-person 3D platform game starring an anthropomorphic shark boy"
一些值得注意的失败
Runway的视频合成技术当前状态已经包含了大量的概念错误,正如你上面所看到的。那么这就引出了一个好问题:当我们对一只突然长出人手喝啤酒罐的猫感到满意时,我们应该如何考虑生成失败?
在这种情况下,我们认为有时AI模型并没有非常紧密地遵循提示词——无论是在主题上还是在建议的镜头动作上。至少,这些生成结果没有让我们感到有趣。
"Benj Edwards, a computer journalist, writing about AI on a typewriter that turns into a robot"
"fast motion zoom in and spin around a beautiful queen of the universe"
"A scared woman in a Victorian outfit running through a forest, dolly shot"
"a muscular barbarian with weapons beside a CRT television set, cinematic, 8K, studio lighting"
"aerial shot of a small American town getting deluged with liquid cheese after a massive cheese rainstorm where liquid cheese rained down and dripped all over the buildings"
实验更详细的提示词
由于为Gen-3构建好的提示词可能比较棘手,有人创建了一个GPT助手(用于ChatGPT),可以帮助将简单的提示词转换为包含更详细镜头说明的描述性提示语言。使用该GPT,我们创建了以下生成:
"Low angle static shot: A teddy bear sitting on a picnic blanket in a park, eating a slice of pizza. The teddy bear is brown and fluffy, with a red bowtie, and the pizza slice is gooey with cheese and pepperoni. The sun is setting, casting a golden glow over the scene"
"High angle static shot: A hacker in the 1980s wearing a gray hoodie, hunched over an Apple II computer in a dimly lit room with scattered cables and monitors. The screen displays lines of green code as the hacker types furiously, attempting to break into the Pentagon's network. The room is bathed in the eerie glow of the computer screen and a small desk lamp"
"Wide-angle shot, starting with the Sasquatch at the center of the stage giving a TED talk about mushrooms, then slowly zooming in to capture its expressive face and gestures, before panning to the attentive audience."
自2022年以来,我们看到的所有生成式AI模型都有一个持续的主题:它们在混合训练数据中找到的概念方面可能表现出色,但在泛化方面(将学到的"知识"应用到模型未明确训练过的新情况)通常表现很差。这意味着它们在风格和主题的新颖性方面可能表现出色,但在超出训练数据的基本结构新颖性方面则很难做到。
这对Runway Gen-3意味着什么?缺乏泛化意味着你可能会要求在一杯旋转的咖啡中出现一艘帆船,如果Gen-3的训练数据包含帆船和旋转咖啡的视频示例,那么对模型来说,这是一个"简单"的新组合,可以相当令人信服地完成。但如果你要求一只猫喝啤酒罐(在啤酒广告中),它通常会失败,因为训练数据中可能没有很多逼真的猫喝人类饮料的视频。相反,模型会从它学到的关于猫的视频和啤酒广告的视频中提取信息并将它们组合。结果是一只长着人手的猫在狂饮啤酒。
在Gen-3 Alpha测试阶段,我们注册了Runway的标准计划,每月15美元提供625个积分,外加一些免费试用积分。每生成一秒视频需要10个积分,我们创建了10秒的视频,每个视频消耗100个积分。因此,我们能够生成的数量是有限的。
最终,这些花哨的提示词并没有真正帮助。Runway Gen-3 Alpha目前是一个迷幻的玩具,如果你能负担得起积分的话,它可能会很有趣。但它通常缺乏生成所谓"有用视频"的连贯性,尽管根据项目的不同,你的体验可能会有所不同。即使结果是完美的,使用在未知数据集上训练的视频合成模型的伦理问题可能会引发一些反弹。
什么可以改进Runway的AI模型?除其他外,更多带有更好注释的训练数据。AI模型需要尽可能多的各种各样、标注良好的例子来学习,这样它就可以更好地将提示词转化为用户想看到的东西。OpenAI的GPT-4在文本合成方面引起轰动的原因之一是,该模型终于达到了一个规模,足以吸收足够的信息(在训练数据中),给人一种它可能真正理解和模拟世界的印象,而实际上,它成功的一个关键方面是它"知道"的比大多数人都多,可以通过以新颖的方式组合这些现有概念来给我们留下深刻印象。
随着足够的训练数据和计算能力,AI行业最终可能会达到你可以称之为AI视频合成的"理解幻觉"——但在电视和电影制作行业工作的人可能不会喜欢这一点。
记得关注我们的公众号,获取更多AI使用技巧和效率提升秘籍
解锁未来,掌控AI 大模型的力量!评论区留言,加入“零基础掌握AI”群