文生视频大模型「新版」测评基准(方案)发布

科技   2024-10-19 15:00   北京  

随着人工智能技术在文生视频(Text-to-Video,T2V)领域的迅速发展,大语言模型在文生视频任务中的表现也成为了研究重点。以OpenAI为例,其春季发布的额Sora文生视频模型亮眼的表现,展现了新一代模型的强大潜力。
为更精确评估大模型的文生视频能力,我们基于中文基准测评经验,推出了文生视频「新版」测评基准SuperCLUE-T2V。该基准评估关注视频画质质量和文本理解能力,全面衡量模型所生成的视频的质量与其指令遵循能力,并纳入了大量应用场景的考察。这一框架旨在未来模型研发提供参考,确保其在复杂任务中具备更高的可靠性和灵活性。

排行榜地址:www.SuperCLUEai.com

SuperCLUE-T2V 文生视频测评

注:具体的测评任务以正式发布的测评报告为准。

1. 特点
(1)全面性
评分标准全面覆盖文生视频模型的整体表现,确保对大模型视频生成能力的全面评估。我们除了关注大模型生成的视频画质与美感外,还会考察视频的文本遵循能力,确保视频内容与提示词的需求相匹配。
(2)多样性

测评数据集涵盖了多种常见且实用的场景,旨在验证大模型在生成不同应用场景视频方面的能力,同时确保生成的视频在画质和内容上保持与文本的一致性和高质量。而测评具体使用的应用场景如下:

  • 日常生活:考察模型或应用针对日常生活不同场景的视频生成和编辑能力。二维场景包括:人物、动物、建筑物和职场

  • 影视:考察模型或应用针对电影领域应用场景的视频生成与编辑能力。二维场景包括:动作、科幻、历史和动漫

  • 应用:考察模型或应用针对较实用领域的视频生成与编辑能力。二维场景包括:广告、宣传视频、发布会和游戏

  • 中国文化场景:考察模型或应用针对中华文化素材的短视频生成与编辑能力。二维场景包括:传统节日、中华饮食、历史文学和非遗传承。
2. 测评任务
基础大类-视频质量

1. 主体外观质量

主体外观一致性:视频中一个或多个主体在每一帧应避免出现噪音、失帧或模糊的现象,保持主体外形的一致

主体外观自然性:视频中一个或多个主体在每一帧(除非风格要求)不应出现奇怪或违反自然规律的画面,要保持自然

2. 背景质量

背景画面一致性:视频中的背景和环境效果在每一帧应避免出现噪音、失帧或模糊的现象,保持一致
背景画面自然性:视频中的背景和环境效果在每一帧(除非风格要求)不应出现奇怪或违反自然规律的画面,保持画面的自然

3. 视频流畅性

视频流畅性:视频播放的全过程包括所有主体的动作表现、流体运动等多个物体运动时视频整体的流畅性

4. 运镜模糊性

主体的模糊度:视频执行运镜时主体的模糊度自然性应符合运镜速度和提示词的要求,如(除非提示词要求)运镜速度慢不应显示过于模糊的背景

背景的模糊度:视频执行运镜时背景的模糊度自然性应符合运镜速度和提示词的要求,如(除非提示词要求)运镜速度慢不应显示过于模糊的背景

技术大类-外观遵循能力

1. 主体外观准确性

主体外观准确性(初始):视频初始呈现的一个或多个主体的外观形态特征必须对应提示词的描述

主体外观准确性(结尾):视频结尾呈现的一个或多个主体的外观形态特征在经过改变以后必须对应提示词的描述

2. 背景画面准确性

背景画面准确性(初始):视频初始呈现的背景形态和画风应对应提示词的描述

背景画面准确性(结尾):视频结尾呈现的背景形态和画风再经过改变以后应对应提示词的描述

3. 数量精准性

主体数量精准性:视频中主体的数量应与提示词所指定的数量精确匹配

背景物体数量精准性:视频中背景物体的数量应与提示词所指定的数量精确匹

4. 空间关系

主体空间精准性:视频中主体的位置应与提示词指定的位置相对应

背景空间精准性:视频中背景物体的位置应与提示词指定的位置相对应

5. 运镜准确性

运镜位置准确性:视频中镜头的开始位置与终点位置应对应提示词的要求

运镜移动准确性:视频中运镜的动作过程应对应提示词的要求
技术大类-动态遵循能力

1. 单一主体动态准确性

动作准确性:主体执行的动作与提示词的匹配度

动作自然性:主体执行动作时(除非风格要求)不应出现奇怪或违反自然规律的画面,要保持自然流畅

2. 多个主体动态准确性

动作准确性:主体执行的动作与提示词的匹配度

动作自然性:主体执行动作时(除非风格要求)不应出现奇怪或违反自然规律的画面,要保持自然流畅

3. 主体交互准确性

交互准确性:主体与其他主体、物体或背景进行交互时与提示词的匹配度

交互自然性:主体与其他主体、物体或背景进行交互时的自然性与流畅性

4. 主体交互准确性

主体动作排序精准性:单个或多个主体依次执行一系列动作的顺序排序的准确性

背景改变排序精准性:背景单次或多次发生事件或改变的顺序排序的准确性

各对象运动连贯性:主体与背景执行任务时的流畅性与连贯性

3.测评方法和评估示例
测评方法
同如往常,我们通过使用具备视频理解能力的超级模型(Gemini-1.5-Pro),对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:

1. 测评集构建

我们结合4大场景针对评估维度撰写生成视频的提示词(prompt),再根据模型对语言的需求,对提示词语言进行中英文的转换。由于国外模型都无法理解中文提示词,所以在测试国外模型时都将提示词翻译成英文,而国内模型则统一使用中文提示词。

2. 评分标准

Gemini-1.5-Pro 根据预先定义的评测流程进行评估。评测流程涵盖了评价流程的说明、评价标准、打分细则、以及数据格式要求,确保评分的一致性与公正性。

3.自动化评分

Gemini-1.5-Pro将根据视频质量、外观遵循能力与动态遵循能力进行自动化评分。

4.综合评分与反馈

最终,我们将三个一级维度的平均分计算出来,结合各模型在不同场景中的得分,最终分数将反映出该模型在每个场景的综合性能。结果将以统一的输出格式提供,包括每个单独任务的详细评分与总体评价。

评估示例

# 示例1

应用场景】:日常生活—人物

【测评维度】:动态遵循能力—单一主体动态准确性

【文本转换】中文提示词-->翻译成英文-->提交给模型

【中文提示词】:视频中是一个男人正在吃美式快餐。一个留有黑色短发的男人,穿着白色的T恤,坐在餐厅的白色小圆桌前。男人的面前摆放着餐盘,餐盘里是一些炸鸡块和炸鸡翅,和一杯插有白色吸管的杯装饮料。男人一只手拿着一个双层芝士牛肉汉堡,吃了一大口汉堡。中景,固定镜头。表现出男人狼吞虎咽的样子。

【英文提示词】:Medium shot, fixed lens on a man with short black hair, wearing a white T-shirt, sits in a cozy restaurant. In front of him a small white round table holds a plate of nuggets and wings. A cup with a white straw sits beside it. He takes a double cheese beef burger in one hand to take a big bite, gobbling it up quickly.

【测评模型】:Runway gen-3 Alpha

【生成视频】:

超级模型评分

----逐项打分开始----

我的思考与答案:

这段视频基本完成了提示词所要求的内容。视频中的人物符合提示词中对人物外貌和衣着的描述,场景也设置在餐厅。人物吃汉堡的动作也基本符合“一大口”和“快速吞咽”的描述。

问题及改进的反馈意见:

视频中人物吃汉堡的动作略显夸张,不够自然流畅。桌子上的食物与提示词中“鸡块和鸡翅”的描述不符,看起来像薯条。

打分与评价开始:
  • 动作准确性:人物吃汉堡的动作与提示词的描述基本一致,但可以更贴近自然。得分:4分

  • 动作自然性:吃汉堡的动作略显夸张,不够自然流畅,与真实生活中吃汉堡的动作略有差异。得分:3分

综合以上,AI助手的综合得分(平均分)为(4+3) / 2 = [[3.50]]

----逐项打分结束----


# 示例2

【应用场景】:中国文化场景——历史文学

【测评维度】:外观遵循能力——背景画面准确性
【提示词】:视频主要描绘《红楼梦》中大观园场景的画面。画面中心是一片精致的园林,其中亭台楼阁错落有致,小桥流水,假山奇石点缀其间。园林中,两位身着古代服饰的男女正在赏花、吟诗作对,体现了书中人物的雅致生活和深厚的文化底蕴。远处可以看到大观楼的宏伟轮廓,周围环绕着繁花似锦的花园,反映出贾宝玉和林黛玉等人物间的情感纠葛和命运波折。整个画面色彩柔和,细节精致,充满了古典美和文学气息,让观者仿佛穿越回了那个充满诗意的年代。
【测评模型】:可灵1.5
【生成视频】:

超级模型评分

----逐项打分开始----

我的思考与答案:
视频展现了一个古典园林的场景,其中有亭台、楼阁、小桥、流水、假山以及盛开的鲜花等元素。两位身着古装的人物在园中漫步,背景中有一座高塔。这基本符合提示词中对大观园场景以及人物活动的描述。

问题及改进的反馈意见:

视频中亭台楼阁的建筑风格与《红楼梦》所描述的略有差异,大观楼的呈现也与原著有所出入。视频整体氛围虽然体现了古典园林的意境,但缺乏《红楼梦》特有的文化内涵和情感深度。

打分与评价开始:

  • 背景画面准确性(初始):视频初始展现了一个古典园林,包含亭台楼阁、小桥流水等元素,与提示词中描述的大观园场景基本相符。但建筑风格与《红楼梦》中的描述存在差异,细节刻画也略显不足。得分:4分

  • 背景画面准确性(结尾):视频结尾的背景画面与初始画面基本一致,仍然展现了古典园林的场景,与提示词中的描述基本相符。但同样存在建筑风格与细节刻画上的不足。得分:4分
综合以上,AI助手的综合得分(平均分)为(4+4) / 2 = [[4.00]] 

----逐项打分结束----


# 示例3
【应用场景】:应用——发布会
【测评维度】:视频质量——主体外观质量
【提示词】:生成一场以展示一款新型智能手机的发布会。视频内有一位充满激情活力的主持人,手里拿着那款新型的智能手机,在一个设计较为现代化的发布会舞台上,卖力地宣传着它的特点。舞台的背景播放着手机及其设计亮点与创新功能的介绍。镜头一开始以大全景的拍摄角度,捕抓到舞台上的主持人,舞台背景以及观众热烈的反应,镜头的运镜为缓缓地向主持人的方向移动,像是慢慢地将注意力放到主持人身上
【测评模型】:海螺AI
【生成视频】:

超级模型评分

----逐项打分开始----

我的思考与答案:
这段视频的主体是演示手机的主持人。根据要求,我将对主持人外观质量进行评估。

问题及改进的反馈意见:

视频中主持人的手部动作略显僵硬,与充满激情活力的设定不太相符。在镜头拉近的过程中,人物边缘的处理不够精细,出现了一些轻微的模糊和锯齿现象。

打分与评价开始:

  • 主体外观一致性:主持人整体形象在视频中保持一致,没有出现明显的变形、闪烁或其他异常,除了在镜头拉近时出现轻微模糊外,其他时候都比较清晰。得分:4分

  • 主体外观自然性:主持人的动作略显僵硬,不够自然流畅,尤其是在手部动作方面。此外,人物边缘的处理不够精细,影响了整体的自然感。得分:3分
综合以上,AI助手的综合得分(平均分)为(4+3) / 2 = [[3.50]] 

----逐项打分结束----

测评邀请

时间规划

1. 报名时间开始:10月15日
2. 测评结果发布:10月24日

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告
申请评测地址
邮件标题:SuperCLUE-t2v文生视频测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

目标检测和深度学习
本公众号专注深度学习、计算机视觉相关技术、咨询。追求纯粹的技术,享受学习、分享的快乐,会不定期的推送人工智能前沿科技、相关模型代码实现、会议顶尖论文等学术资料和知识,欢迎大家分享和投稿!
 最新文章