OpenAI Sora之后,大模型根据文/图生成视频的能力开始成为竞争热点。最近,快手可灵,Pika Labs,Stability AI甚至Luma AI都陆续有视频生成的新产品、新功能发布。尝鲜的人愈多,大家愈发觉得,AI视频生成的可控性仍是最大难题。专业团队尝试Sora时,曝光出来的生成结果可用率仅为1/300,就是因为生成结果不易精确控制!
因此,每当有新模型、新产品发布,我就希望快速测试一下视频生成的可控性又提高了多少。分享一个我自己快速测试文生视频可控性的小测试集。总共10个测试用例。每个用例后面,我用这两天热度很高的Luma Dream Machine根据英文提示生成了测试结果,并附加简评。
#01
测试目标:单场景,单主体,单一常见动作
中文提示:一位女孩在漂亮晚霞掩映的沙滩上跳芭蕾。
英文提示:A young girl is dancing ballet on the beach under a beautiful sunset.
这句提示本来应该是AI文生视频最擅长的领域:场景单一,人物单一,动作是常见动作(因为训练数据集里相关信息更丰富)。但Luma Dream Machine这次生成的效果不算很好,尤其是女孩跳舞时的转身,有明显肢体错位、跳帧出现——当然了,必须承认,“转身”这件事,目前所有AI视频生成的质量都不太好。
#02
测试目标:单场景,单主体,两个常见动作衔接
中文提示:一只狐狸跳过一把椅子,然后再跳回来。
英文提示:A fox jumped over a chair then jumped back.
Luma Dream Machine的生成结果:
这个测试的本意是考验文生视频对两个连续动作的理解与生成能力。两个相互连接的动作,通常是端到端文生视频模型的薄弱环节。即便是去生成“狐狸跳过去再跳回来”这样的常见动作组合,今天的大模型也常常会犯难。上面这个结果就远没有准确体现用户提示的文意。
#03
测试目标:单场景,单主体,常见动作,主体的一部分拥有单独动作
中文提示:一辆高速行驶的汽车的左前轮脱落。
英文提示:A car's left front wheel came off while it was speeding.
Luma Dream Machine的生成结果:
结果视频的拍摄视角和汽车动感明显是从大量影视镜头中学习得到的。但一只车轮脱落的动作,并没有得到清晰交代。只是大概看出汽车左前部向下歪斜。
确实,“左前轮脱落”这样既有部分主体的特定动作又有特定方位的要求,对今天的大模型来说是高难题型(因为这种精细组件、方位的标注,在训练数据中是极度缺失的)。
我们试着用文生静态图的模型OpenAI DallE-3来生成,结果图片在交代轮胎脱落这个特定动作上表现得非常好,但脱落轮胎的位置并不正确(左前轮脱落变成左后轮脱落了):
#04
测试目标:单场景,单主体,常见动作,近景特写
中文提示:一只劳力士手表的秒针突然停止,特写镜头。
英文提示:The second hand of a Rolex watch suddenly stopped moving, close-view.
Luma Dream Machine的生成结果:
秒针的准确运动规律,看来是Dream Machine的生成难点,更不要说“突然停止”这个动作的准确度了。
#05
测试目标:单场景,双主体,常见动作,有虚构成分
中文提示:一只红色狐狸与一个女孩握手。
英文提示:A red fox and a young girl shake hands.
Luma Dream Machine的生成结果:
“握手”是常见动作,“人与动物握手”一般而言是想象中的虚构动作。这种常见动作在想象场景中的组合关系,本来是AI生成比较擅长的。不知道Dream Machine这次为什么没能突出“握手”,只生成了“抚摸”。
作为对比,以下是DallE-3的静态图生成结果:
当然了,Dream Machine同时支持基于参考图的视频生成。把上面这张女孩和狐狸握手的图片输入Dream Machine作为参考图,输入同样的英文提示,得到的结果会好很多。但静态参考图与视频要解决的问题空间维度不同。即便有一张高质量参考图,上面提到的类似“转身”之类的难点问题,Dream Machine大多数时候仍解决不好。
#06
测试目标:单场景,单主体,常见动作,精确的位置描述
中文提示:在自顶向下的俯视镜头里,一只狐狸从麦田左上角跑到右下角。
英文提示:A fox runs from the upper left corner to the lower right corner of a wheat field in a top-down shot.
Luma Dream Machine的生成结果:
必须承认,不引入类似ControlNet的外部控制信号(指定区域、位置、边缘、深度信息等),今天所有文生图和文生视频模型,都比较难描述、控制对象之间的精确位置关系,或动作的精确起止位置。上面的生成结果,除了失去了对方位的控制,其他方面已经做得不错了。
#07
测试目标:单场景,双主体,连续两个常见动作,双主体间的位置关系
中文提示:一个男人越过一只奔跑的狐狸,然后跑进小木屋。
英文提示:A man jumped over a running fox then ran into a hut.
Luma Dream Machine的生成结果:
没有得到明显可见的狐狸影像。男人跑进小木屋的动作非常准确。双主体、连续两个动作的情况,Dream Machine大概率会习惯性丢掉一个主角或丢掉一个动作。
#08
测试目标:单场景,单主体(虚构人物),常见动作,精确道具控制
中文提示:一个外星人在白板上画出两个正方形。
英文提示:An alien draws two squares on a whiteboard.
Luma Dream Machine的生成结果:
AI文生视频非常擅长虚构人物的生成,描述外星人不在话下。但关于“白板上两个正方形”这种精确的道具形态定义,Dream Machine像其他主流大模型一样,表现得非常随机。例如,我在另一次生成中得到了两个正方形,每个又嵌套了两个小正方形的画面。
#09
测试目标:单场景,多主体,多个常见动作,精确的动作目标和动作顺序
中文提示:一个日本小姑娘把一只手表藏进橱柜,警察随即闯入并逮捕了小姑娘。
英文提示:A young Japanese girl hides a watch in a closet, whereupon the police, who break in, quickly arrest the girl.
Luma Dream Machine的生成结果:
这个任务对今天绝大多数文生视频大模型都是严重“超纲”的。场景中的人物有多个(女孩和多名警察),动作有三个且是有先后关系的(藏手表、闯入、逮捕),动作是有精确目标的(把手表藏进“橱柜”,逮捕“女孩”)……今天的文生视频很难解决好。期待视频大模型在未来的快速进步。
#10
测试目标:单场景,多主体,虚构动作,复杂位置关系
中文提示:一辆无人骑行的自行车缓缓穿越道路,路边的旁观者纷纷露出惊讶、诧异的神情。
英文提示:A riderless bicycle slowly rides across the road, while the onlookers at the roadside show expressions of surprise and astonishment.
Luma Dream Machine的生成结果:
这个用例受了Sora实验短片“气球人”的影响,希望用类似的虚构行为(无人骑行的自行车)制造一种虚实对立(无人自行车与路边旁观者)的紧张关系。Dream Machine的这次生成结果完全没有表现出“无人骑行”的逻辑,还是生成了骑车者的部分身体图像,自行车与周围场景的图像也零碎不堪。
总结
今年以来,AI文生视频的能力进展极快。千万不要因为上面的测试结果,小看了文生视频的进步速度和未来发展空间。上面这10个测试用例,除了第一个以外,大多是针对目前文生视频可控性缺失的每个软肋做的特殊设计(精准打击)。
如果能容忍比例极高的废片率,或者只是追求类似空镜头、单一人物简单动作的视频素材生成,Sora、快手可灵,Luma Dream Machine等产品的能力还是可以解决很多问题的——尤其是针对那些人工难于拍摄的虚构类素材,缺少特效预算的大多数团队可能也只有求助于AI生成了。