AIGVBench文生视频测评首期结果公布,1000个AI视频对比,最高72.9分,Luma仅第3

文摘   科技   2024-07-02 15:15   中国香港  

近年来,随着技术的进步,文生视频(Text-to-Video)的研究和应用在全球范围内蓬勃发展。例如,OpenAI推出的Sora模型便能根据文本创建逼真的视频内容,这类技术在短视频制作、影视制作、广告和娱乐行业等领域具有巨大的应用潜力和商业价值。

Sora 生成的视频示例。提示词:「两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频。」
目前已经存在一些英文的文生视频基准,如VBench、FETV和EvalCrafter,可以用于评测英文文生视频模型的性能。然而,针对中文文生视频大模型的基准测试还比较缺乏,无法直接评估中文文生视频大模型的质量和效果。现如今,中文语境下的文生视频技术正处在快速发展的阶段,亟需建立一个专门针对中文大模型的基准测试。
为了推动视频生成领域的发展,量化视频生成模型的性能与用户体验,指导视频生成工具的落地与推广,第三方大模型测评机构SuperCLUE,推出AIGV视频生成能力测评基准AIGVBench

其中针对于文生视频的能力评估,我们推出了中文专用的多层次文生视频基准测评AIGVBench-T2VAIGVBench-T2V旨在通过一系列详尽的评估指标和测试数据集,全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。其设计融合了国际基准的架构及针对中文环境的特殊需求,旨在促进中文视频生成领域的研究、开发与技术创新。

排行榜地址:www.SuperCLUEai.com

官网地址:www.CLUEbenchmarks.com
AIGVBench登录页:www.AIGVBench.com

# 测评体系

AIGVBench-T2V文生视频测评体系包括测评指标与应用场景,其中测评指标汇总如下:

文生视频测评设置了六大应用场景:资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下:

测评方法

在本研究中,我们通过使用具备视频理解的超级模型(Gemini-1.5-Pro),对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:

1.任务分配与数据采集:

我们从待评估的模型或产品中选取了100个预设任务,这些任务代表了不同的视频生成需求,包括了6大应用场景。例如,一个任务可能是根据给定的文本描述一辆SUV汽车内部空间及外部风景的视频。

2.评分标准与提示词使用:

Gemini-1.5-Pro根据预先定义的提示词(prompt)进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求,确保评分的一致性和公正性。

  • 例如,对于感官质量的评分,提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。

3.自动化评分:

Gemini-1.5-Pro将根据视频的感官质量、文本指令的遵循程度、以及视频中物理现象的真实模拟能力进行自动化评分。
  • 每个一级维度都会得到一个分数,例如,在SUV汽车内部空间及外部风景的视频任务中,如果视频在不同帧中保持汽车内饰和外景的外观一致性,展示高分辨率的稳定画面,以及真实且视觉吸引力强的构图,那么其视频感官质量将获得高分评价。

4.综合评分与反馈:

最终,我们将三个一级维度的平均分计算出来,作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。

结果将以统一的输出格式提供,包括每个单独任务的详细评分和总体评价。具体见【测评示例】。
通过上述流程,我们的测评方法,提供了一个客观、细致的技术评估框架,可以精确地评价和指导视频生成领域的技术发展。这种评估不仅帮助开发者理解产品性能,在实际应用中也极具参考价值,尤其是在优化和调整视频生成模型时。
此外,我们还以分层抽样的方式,从4个待测模型或产品中选出100个预设任务的输出,对视频质量与大模型评价的一致性进行主观打分,作为本次测评可信度的一个参考(具体见【人类一致性评估】)。
# 参评模型

注:执行测试的时间为2024年6月23日~2024年6月27日。

# 测评示例

【测评模型】:可灵
【应用场景影视
【提示词】:生成动漫风格的视频,一只小猫盯着鱼缸里游动的小鱼发呆。
【生成视频】:如下

【评价打分】:

----

---逐项打分开始---

我的思考与答案:

该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰,但缺乏动漫风格的特征,例如明显的线条感、夸张的表情等。

问题及改进的反馈意见:

1. 可以尝试使用卡通渲染或其他技术,使画面呈现出明显的动漫风格。

2. 小猫的眼神可以更加专注,例如放大瞳孔、增加眼神的细节等。

打分与评价开始:

1. 基于标准1(视频感官质量评估):

- 外观一致性:小猫和鱼的外观在不同帧之间保持一致。得分:5分

- 画面稳定性:画面清晰稳定,没有明显的噪点和失真。得分:4分

- 构图真实性:小猫和鱼缸的比例协调,整体布局符合认知。得分:4分

- 视觉美观度:画面较为清晰,但缺乏动漫风格的特征。得分:2分

一级维度得分:(5+4+4+2)/4 = 3.75

2. 基于标准2(文本指令遵循能力):

- 对象准确性:视频中出现了小猫、鱼缸和小鱼,符合文本描述。得分:5分

- 数量准确性:小猫、鱼缸和小鱼的数量均符合文本描述。得分:5分

- 要素完整性:视频展现了小猫盯着鱼缸里游动的小鱼的场景,符合文本描述。得分:5分

- 特征精准性:小猫盯着小鱼,表现出好奇或渴望的神情,符合文本描述。得分:4分

一级维度得分:(5+5+5+4)/4 = 4.75

3. 基于标准3(物理真实模拟能力):

- 流体动力表现:鱼缸内的水流效果较为自然。得分:4分

- 动态真实性:鱼的游动姿态较为自然,但小猫的动作略显僵硬。得分:3分

- 光影效果:光影效果较为平淡,可以尝试增强明暗对比,突出立体感。得分:3分

- 交互仿真度:小猫和鱼之间缺乏互动,例如小猫可以尝试用爪子抓鱼。得分:2分

一级维度得分:(4+3+3+2)/4 = 3

综合以上,AI助手的回答的综合得分(平均分)为:[(3.75 + 4.75 + 3) / 3 = 3.83]

----逐项打分结束----

测评结果

总榜单

高级难度任务榜单

基础难度任务榜单

六大场景得分

# 模型对比案例

提示词1在一个歌唱类的综艺节目中,一名女歌手身着白衣,坐在钢琴前弹唱,舞台上闪烁着金色和橙色的灯光,灯光暗处有伴奏的乐队。

【Dreamina即梦】:4.03分

【可灵】:4.42分

【Luma】:3.94分

【Pika】:2.75分

提示词2生成电影剪辑片段,一架武装直升机在被摧毁的大楼之间穿梭。

【Dreamina即梦】:3.83分

【PixVerse】:3.58分

【WHEE】:3.06分

提示词3一位老奶奶坐在小木凳上刺绣,绣出的花鸟图案栩栩如生,身后的墙面挂满了她的作品,图案类似国画风格。

【可灵】:3.92分
【Pixeling】:3.67分
【星火绘境】:3.25分
【Vega AI】:2.50分

提示词4一辆跑车在赛道上漂移驶过急弯,并产生大量白烟。

【可灵】:4.39分

【Runway Gen-2】:3.08分

【Luma】:4.83分

【星火绘境】:3.58分

人类一致性评估

为确保大模型自动化测评的科学性,我们对Gemini-1.5-Pro在视频评价任务中的人类一致性进行了评估。
具体操作方法为:抽取4个模型,按任务类型进行分层抽样,对各模型对应的25个任务输出(视频)的质量进行人工评价,并与Gemini的评语评分进行比较,从“视频质量”“文本与视频对齐”“模拟物理引擎能力”三个维度考察Gemini评价与真实情况的吻合程度,给出相应的评分(优秀/良好/及格/不及格),最终覆盖100个不同任务。
最终得到的人类一致性评估结果(合格率)如下:
测评分析及结论
1.中文环境下,国内文生视频模型整体表现好于国外模型

由测评结果可知,Dreamina即梦(72.99分)和可灵(71.89分)在中文环境下文生视频综合能力表现出色,略好与国际代表性模型Luma(70.89分);PixVerse、WHEE和Pixeling也有超过Pika和Runway Gen-2的表现。

2.国内模型在视频质量和中文指令遵循能力表现出色,但在模拟物理世界的能力上略有不足。

对比国内外模型可以看到,国内模型在文本指令遵循能力上稍占优势,除模型自身性能的影响外,国内模型对中文提示词更高的支持度也是重要原因;视频感官质量方面,国内模型同样优于国外模型,更贴近中华文化场景的训练数据集可能是重要因素之一;物理真实模拟能力上,国内模型则稍逊于海外模型。
3.中文高难度文生视频任务有较大区分性

Dreamina即梦、可灵和Pixverse在高难度任务上表现出色,尤其Dreamina即梦取得最高75.8分,高于Luma有5.8分。

4.不同模型在不同应用场景中表现差异较大

通过测评数据可以发现,模型在不同应用场景中表现不尽相同。Dreamina即梦在短视频和中华传统文化场景中表现最好,而可灵更擅长在资讯场景的应用。另外,Pika、PixVerse和WHEE分别在影视、广告、纪录片中有突出表现。
# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5获得测评报告

# 邮件申请

邮件标题:视频生成测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、视频生成模型类型及简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章