文生视频背靠背测试:可灵 vs. Luma

文摘   2024-06-24 18:56   北京  

文生视频的可控性测试集(附 Luma Dream Machine 测试结果)中,我给出了一个测试文生视频可控性的,包含10个基本测试用例的测试集,还用Luma Dream Machine做了初步测试。今天,我用快手可灵(通过“快影”工具)测试了同样的10个基本测试用例,然后把快手可灵的结果与Luma Dream Machine的结果拼接起来(可灵在上,Luma在下)。大家自行对比、判断快手可灵与Luma Dream Machine孰强孰弱。

测试方法:

  • 快手可灵使用中文提示词,Luma Dream Machine使用英文提示词;

  • 除提示词外,两个工具均使用缺省配置;

  • 快手可灵选择1280x720画幅,Luma Dream Machine使用缺省的1360x752画幅,合并以下SxS视频时,将Luma Dream Machine的结果缩放到与快手可灵结果等宽(1280像素),以便对比;

  • 快手对某些提示词元素的内容审查较严格,有疑问的均拒绝生成。因此,第9条原来的中文提示词“一个日本小姑娘把一只手表藏进橱柜,警察随即闯入并逮捕了小姑娘”,实际在快手可灵中生成时,不得已修改成“一个小姑娘把一只手表藏进橱柜,厨师随即进入并拉住了小姑娘”。

测试结果对比:

#01

  • 测试目标:单场景,单主体,单一常见动作

  • 中文提示:一位女孩在漂亮晚霞掩映的沙滩上跳芭蕾。

  • 英文提示:A young girl is dancing ballet on the beach under a beautiful sunset.

#02

  • 测试目标:单场景,单主体,两个常见动作衔接

  • 中文提示:一只狐狸跳过一把椅子,然后再跳回来

  • 英文提示:A fox jumped over a chair then jumped back.

#03

  • 测试目标:单场景,单主体,常见动作,主体的一部分拥有单独动作

  • 中文提示:一辆高速行驶的汽车的左前轮脱落。

  • 英文提示A car's left front wheel came off while it was speeding.

#04

  • 测试目标:单场景,单主体,常见动作,近景特写

  • 中文提示:一只劳力士手表的秒针突然停止,特写镜头。

  • 英文提示The second hand of a Rolex watch suddenly stopped moving, close-view.

#05

  • 测试目标:单场景,双主体,常见动作,有虚构成分

  • 中文提示:一只红色狐狸与一个女孩握手。

  • 英文提示A red fox and a young girl shake hands.

#06

  • 测试目标:单场景,单主体,常见动作,精确的位置描述

  • 中文提示:在自顶向下的俯视镜头里,一只狐狸从麦田左上角跑到右下角。

  • 英文提示A fox runs from the upper left corner to the lower right corner of a wheat field in a top-down shot.

#07

  • 测试目标:单场景,双主体,连续两个常见动作,双主体间的位置关系

  • 中文提示:一个男人越过一只奔跑的狐狸,然后跑进小木屋。

  • 英文提示A man jumped over a running fox then ran into a hut.

#08

  • 测试目标:单场景,单主体(虚构人物,常见动作,精确道具控制

  • 中文提示:一个外星人在白板上画出两个正方形。

  • 英文提示An alien draws two squares on a whiteboard.

#09

  • 测试目标:单场景,多主体,多个常见动作,精确的动作目标和动作顺序

  • 中文提示:一个日本小姑娘把一只手表藏进橱柜,警察随即闯入并逮捕了小姑娘。(为适应可灵的内容过滤,不得已改成了“一个小姑娘把一只手表藏进橱柜,厨师随即进入并拉住了小姑娘”)

  • 英文提示:A young Japanese girl hides a watch in a closet, whereupon the police, who break in, quickly arrest the girl.

#10

  • 测试目标:单场景,多主体,虚构动作,复杂位置关系

  • 中文提示:一辆无人骑行的自行车缓缓穿越道路,路边的旁观者纷纷露出惊讶、诧异的神情。

  • 英文提示A riderless bicycle slowly rides across the road, while the onlookers at the roadside show expressions of surprise and astonishment.

小结

不知道大家如何判断。我个人的简单总结(仅供参考):

  • 单一主体,单一动作时,快手可灵对中文提示的理解准确度,好于Luma Dream Machine对英文提示的理解,个别具体测试用例里,快手可灵表现出来明显的质量优势。

  • 多动作、较复杂动作衔接、组合,较复杂逻辑或交互,目前快手可灵与Luma Dream Machine都很难支持。

  • 想单通过提示词就对生成结果的时间、空间关系做精确控制,目前还比较困难。无论是快手可灵还是Luma Dream Machine,都还没有做到文生视频里的精确可控。

  • 文生图、文生视频里的常见质量缺陷(比如三条腿、人体扭曲等),在二者的生成结果中,都不难找到。

2024年,AI视频生成技术进步极大,但还没有大到突破应用边界的地步。

AI同行们,大家一起加油!

半轻人
王咏刚,笔名半轻人。科普,教育,科幻,随笔。不趋同,不定期。