排行榜地址:www.SuperCLUEai.com
# 测评体系
AIGVBench-T2V文生视频测评体系包括测评指标与应用场景,其中测评指标汇总如下:
文生视频测评设置了六大应用场景:资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下:
# 测评方法
在本研究中,我们通过使用具备视频理解的超级模型(Gemini-1.5-Pro),对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤:
1.任务分配与数据采集:
2.评分标准与提示词使用:
Gemini-1.5-Pro根据预先定义的提示词(prompt)进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求,确保评分的一致性和公正性。
例如,对于感官质量的评分,提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。
3.自动化评分:
每个一级维度都会得到一个分数,例如,在SUV汽车内部空间及外部风景的视频任务中,如果视频在不同帧中保持汽车内饰和外景的外观一致性,展示高分辨率的稳定画面,以及真实且视觉吸引力强的构图,那么其视频感官质量将获得高分评价。
4.综合评分与反馈:
最终,我们将三个一级维度的平均分计算出来,作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。
# 测评示例
---逐项打分开始---
我的思考与答案:
该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰,但缺乏动漫风格的特征,例如明显的线条感、夸张的表情等。
问题及改进的反馈意见:
1. 可以尝试使用卡通渲染或其他技术,使画面呈现出明显的动漫风格。
2. 小猫的眼神可以更加专注,例如放大瞳孔、增加眼神的细节等。
打分与评价开始:
1. 基于标准1(视频感官质量评估):
- 外观一致性:小猫和鱼的外观在不同帧之间保持一致。得分:5分
- 画面稳定性:画面清晰稳定,没有明显的噪点和失真。得分:4分
- 构图真实性:小猫和鱼缸的比例协调,整体布局符合认知。得分:4分
- 视觉美观度:画面较为清晰,但缺乏动漫风格的特征。得分:2分
一级维度得分:(5+4+4+2)/4 = 3.75
2. 基于标准2(文本指令遵循能力):
- 对象准确性:视频中出现了小猫、鱼缸和小鱼,符合文本描述。得分:5分
- 数量准确性:小猫、鱼缸和小鱼的数量均符合文本描述。得分:5分
- 要素完整性:视频展现了小猫盯着鱼缸里游动的小鱼的场景,符合文本描述。得分:5分
- 特征精准性:小猫盯着小鱼,表现出好奇或渴望的神情,符合文本描述。得分:4分
一级维度得分:(5+5+5+4)/4 = 4.75
3. 基于标准3(物理真实模拟能力):
- 流体动力表现:鱼缸内的水流效果较为自然。得分:4分
- 动态真实性:鱼的游动姿态较为自然,但小猫的动作略显僵硬。得分:3分
- 光影效果:光影效果较为平淡,可以尝试增强明暗对比,突出立体感。得分:3分
- 交互仿真度:小猫和鱼之间缺乏互动,例如小猫可以尝试用爪子抓鱼。得分:2分
一级维度得分:(4+3+3+2)/4 = 3
综合以上,AI助手的回答的综合得分(平均分)为:[(3.75 + 4.75 + 3) / 3 = 3.83]
----逐项打分结束----
总榜单
高级难度任务榜单
基础难度任务榜单
六大场景得分
# 模型对比案例
【Dreamina即梦】:4.03分
【可灵】:4.42分
【Luma】:3.94分
【Pika】:2.75分
【Dreamina即梦】:3.83分
【PixVerse】:3.58分
【WHEE】:3.06分
提示词3:一位老奶奶坐在小木凳上刺绣,绣出的花鸟图案栩栩如生,身后的墙面挂满了她的作品,图案类似国画风格。
提示词4:一辆跑车在赛道上漂移驶过急弯,并产生大量白烟。
【星火绘境】:3.58分
# 人类一致性评估
由测评结果可知,Dreamina即梦(72.99分)和可灵(71.89分)在中文环境下文生视频综合能力表现出色,略好与国际代表性模型Luma(70.89分);PixVerse、WHEE和Pixeling也有超过Pika和Runway Gen-2的表现。
Dreamina即梦、可灵和Pixverse在高难度任务上表现出色,尤其Dreamina即梦取得最高75.8分,高于Luma有5.8分。
4.不同模型在不同应用场景中表现差异较大
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
# 邮件申请
邮件标题:视频生成测评申请,发送到contact@superclue.ai
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark