Runway Gen-3 Alpha：AI视频生成的现状与局限

科技 2024-07-27 09:22 美国

今年6月，Runway推出了一个名为Gen-3 Alpha的新型文本到视频合成模型。它可以将被称为"提示词"的文字描述转换为无声的高清视频片段。我们有机会使用了这个模型，现在想分享我们的测试结果。我们的测试表明，精心crafting提示词并不如匹配可能存在于训练数据中的概念那样重要，而且要获得有趣的结果可能需要多次生成并进行选择性的cherry-picking。

一些基本提示词测试

我们首先尝试了一些过去图像合成测试中的标准提示词，如喝啤酒的猫、带CRT电视机的野蛮人和宇宙女王。我们还尝试了Ars Technica的吉祥物"月鲨"。下面你会看到所有这些结果和更多。

由于积分有限，我们无法重新运行它们并进行cherry-picking，所以你看到的每个提示词的结果都是我们从Runway得到的唯一生成结果。

"The moonshark jumping out of a computer screen and attacking a person"

"A cat in a car drinking a can of beer, beer commercial"

"Robotic humanoid animals with vaudeville costumes roam the streets collecting protection money in tokens"

"A basketball player in a haunted passenger train car with a basketball court, and he is playing against a team of ghosts"

"video game footage of a dynamic 1990s third-person 3D platform game starring an anthropomorphic shark boy"

一些值得注意的失败

Runway的视频合成技术当前状态已经包含了大量的概念错误，正如你上面所看到的。那么这就引出了一个好问题：当我们对一只突然长出人手喝啤酒罐的猫感到满意时，我们应该如何考虑生成失败？

在这种情况下，我们认为有时AI模型并没有非常紧密地遵循提示词——无论是在主题上还是在建议的镜头动作上。至少，这些生成结果没有让我们感到有趣。

"Benj Edwards, a computer journalist, writing about AI on a typewriter that turns into a robot"

"fast motion zoom in and spin around a beautiful queen of the universe"

"A scared woman in a Victorian outfit running through a forest, dolly shot"

"a muscular barbarian with weapons beside a CRT television set, cinematic, 8K, studio lighting"

"aerial shot of a small American town getting deluged with liquid cheese after a massive cheese rainstorm where liquid cheese rained down and dripped all over the buildings"

实验更详细的提示词

由于为Gen-3构建好的提示词可能比较棘手，有人创建了一个GPT助手（用于ChatGPT），可以帮助将简单的提示词转换为包含更详细镜头说明的描述性提示语言。使用该GPT，我们创建了以下生成：

"Low angle static shot: A teddy bear sitting on a picnic blanket in a park, eating a slice of pizza. The teddy bear is brown and fluffy, with a red bowtie, and the pizza slice is gooey with cheese and pepperoni. The sun is setting, casting a golden glow over the scene"

"High angle static shot: A hacker in the 1980s wearing a gray hoodie, hunched over an Apple II computer in a dimly lit room with scattered cables and monitors. The screen displays lines of green code as the hacker types furiously, attempting to break into the Pentagon's network. The room is bathed in the eerie glow of the computer screen and a small desk lamp"

"Wide-angle shot, starting with the Sasquatch at the center of the stage giving a TED talk about mushrooms, then slowly zooming in to capture its expressive face and gestures, before panning to the attentive audience."

自2022年以来，我们看到的所有生成式AI模型都有一个持续的主题：它们在混合训练数据中找到的概念方面可能表现出色，但在泛化方面（将学到的"知识"应用到模型未明确训练过的新情况）通常表现很差。这意味着它们在风格和主题的新颖性方面可能表现出色，但在超出训练数据的基本结构新颖性方面则很难做到。

这对Runway Gen-3意味着什么？缺乏泛化意味着你可能会要求在一杯旋转的咖啡中出现一艘帆船，如果Gen-3的训练数据包含帆船和旋转咖啡的视频示例，那么对模型来说，这是一个"简单"的新组合，可以相当令人信服地完成。但如果你要求一只猫喝啤酒罐（在啤酒广告中），它通常会失败，因为训练数据中可能没有很多逼真的猫喝人类饮料的视频。相反，模型会从它学到的关于猫的视频和啤酒广告的视频中提取信息并将它们组合。结果是一只长着人手的猫在狂饮啤酒。

在Gen-3 Alpha测试阶段，我们注册了Runway的标准计划，每月15美元提供625个积分，外加一些免费试用积分。每生成一秒视频需要10个积分，我们创建了10秒的视频，每个视频消耗100个积分。因此，我们能够生成的数量是有限的。

最终，这些花哨的提示词并没有真正帮助。Runway Gen-3 Alpha目前是一个迷幻的玩具，如果你能负担得起积分的话，它可能会很有趣。但它通常缺乏生成所谓"有用视频"的连贯性，尽管根据项目的不同，你的体验可能会有所不同。即使结果是完美的，使用在未知数据集上训练的视频合成模型的伦理问题可能会引发一些反弹。

什么可以改进Runway的AI模型？除其他外，更多带有更好注释的训练数据。AI模型需要尽可能多的各种各样、标注良好的例子来学习，这样它就可以更好地将提示词转化为用户想看到的东西。OpenAI的GPT-4在文本合成方面引起轰动的原因之一是，该模型终于达到了一个规模，足以吸收足够的信息（在训练数据中），给人一种它可能真正理解和模拟世界的印象，而实际上，它成功的一个关键方面是它"知道"的比大多数人都多，可以通过以新颖的方式组合这些现有概念来给我们留下深刻印象。

随着足够的训练数据和计算能力，AI行业最终可能会达到你可以称之为AI视频合成的"理解幻觉"——但在电视和电影制作行业工作的人可能不会喜欢这一点。

记得关注我们的公众号，获取更多AI使用技巧和效率提升秘籍

解锁未来，掌控AI 大模型的力量！评论区留言，加入“零基础掌握AI”群

http://mp.weixin.qq.com/s?__biz=MzA4MTEzMzEzMQ==&mid=2649412665&idx=1&sn=8cf37e9dc93830e3ae097c9d660f2153

AI大模型应用派

AI前沿，AI大模型应用介绍，AI大模型案例分享。

最新文章

著名未来学家凯文·凯利(Kevin Kelly)有关AI的观点

著名未来学家凯文·凯利(Kevin Kelly)谈AI时代三大趋势

Cursor AI：8岁女孩用它45分钟生成聊天机器人！

10个免费学习大语言模型(LLM)的资源

FLUX.1：AI图像生成技术全面解析

AI电影制作的10种方式及最佳工具

AI广告革命：10个惊艳案例揭示未来营销新范式

麻省理工出品的《决策算法》

谷歌前CEO斯坦福“放飞自我”的演讲全文（英文）

劲爆！谷歌前CEO斯坦福“放飞自我”说了啥？

大语言模型(THE CHINESE BOOKFOR LARGE LANGUAGE MODEL)

DMMA《穿越数据的迷宫》

Meta SAM-2：视觉分割的革命性飞跃

2024年AI行业6大高薪职位揭秘:薪资曝光!

AI/ML学习资源大揭秘：从零基础到顶级科技公司机器学习工程师的进阶之路

大语言模型LLMs如何进行探索性数据分析

2024年8款顶级AI数据分析工具

2024年必读17本顶级人工智能（AI）书籍

Runway Gen-3 Alpha：AI视频生成的现状与局限

麻省理工《深入理解深度学习》

Luma AI ：如何将图片生成视频

2024年15款最佳AI写作工具

有效的ChatGPT提示词:技巧与示例

互联网已死?AI正在"杀死"我们所熟知的网络世界

2024年必备：500+最佳ChatGPT提示词大全

新一代开源图像生成模型：Aura Flow

顶尖AI生成视频工具，游戏动画设计都变得如此简单！

惊天揭秘：AI如何席卷全球经济，让你措手不及

AI又出bug了? 数学能力翻车？嘲笑AI的结局，就是被碾压

每年花费70万美元的ElliQ机器人：老年人的智能陪伴

揭秘AI的"大脑":它到底学到了什么?

GPT-5发布震撼细节解析

2024年值得关注的十大免费AI工具

10 款AI App，改变你的生活方式！

国产AI可灵（LivePortrait）能让照片动起来

中国人工智能技术的新飞跃：具身智能与大模型的融合

Ilya Sutskever: AI 将拥有能够自我思考的人类大脑 | 必须认真对待AI安全

Claude 3.5 Sonnet: AI机器人的新标杆

震惊!韩国首现"机器人自杀"?AI时代的警钟还是技术小插曲?

2024年必学：7个顶级科技公司和大学提供的免费AI在线课程

Claude 3.5 Sonnet七大实用场景解析,这款AI究竟有多强?

2024年教育革命:10大AI工具正在改变课堂

2024年度五大AI趋势

2024年150家顶尖AI公司：引领AI革命的先驱者们

人人都应该阅读的文章：对未来10年态势的感知

ChatGPT记忆功能：管理您的记忆

人类与AI代理的协作：提升客户体验的新关键

离实现人类水平的人工智能还有多远？可能比你想象的更近！

TikTok在美国被禁：谁将从中受益？

AI革命：轻松提升工作效率的5种方式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉