AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

文摘科技 2024-07-02 15:15 中国香港

近年来，随着技术的进步，文生视频（Text-to-Video）的研究和应用在全球范围内蓬勃发展。例如，OpenAI推出的Sora模型便能根据文本创建逼真的视频内容，这类技术在短视频制作、影视制作、广告和娱乐行业等领域具有巨大的应用潜力和商业价值。

Sora 生成的视频示例。提示词：「两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频。」

目前已经存在一些英文的文生视频基准，如VBench、FETV和EvalCrafter，可以用于评测英文文生视频模型的性能。然而，针对中文文生视频大模型的基准测试还比较缺乏，无法直接评估中文文生视频大模型的质量和效果。现如今，中文语境下的文生视频技术正处在快速发展的阶段，亟需建立一个专门针对中文大模型的基准测试。

为了推动视频生成领域的发展，量化视频生成模型的性能与用户体验，指导视频生成工具的落地与推广，第三方大模型测评机构SuperCLUE，推出AIGV视频生成能力测评基准AIGVBench。

其中针对于文生视频的能力评估，我们推出了中文专用的多层次文生视频基准测评AIGVBench-T2V。AIGVBench-T2V旨在通过一系列详尽的评估指标和测试数据集，全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。其设计融合了国际基准的架构及针对中文环境的特殊需求，旨在促进中文视频生成领域的研究、开发与技术创新。

排行榜地址：www.SuperCLUEai.com

官网地址：www.CLUEbenchmarks.com

AIGVBench登录页：www.AIGVBench.com

# 测评体系

AIGVBench-T2V文生视频测评体系包括测评指标与应用场景，其中测评指标汇总如下：

文生视频测评设置了六大应用场景：资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下：

# 测评方法

在本研究中，我们通过使用具备视频理解的超级模型（Gemini-1.5-Pro），对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤：

1.任务分配与数据采集：

我们从待评估的模型或产品中选取了100个预设任务，这些任务代表了不同的视频生成需求，包括了6大应用场景。例如，一个任务可能是根据给定的文本描述一辆SUV汽车内部空间及外部风景的视频。

2.评分标准与提示词使用：

Gemini-1.5-Pro根据预先定义的提示词（prompt）进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求，确保评分的一致性和公正性。

例如，对于感官质量的评分，提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。

3.自动化评分：

Gemini-1.5-Pro将根据视频的感官质量、文本指令的遵循程度、以及视频中物理现象的真实模拟能力进行自动化评分。

每个一级维度都会得到一个分数，例如，在SUV汽车内部空间及外部风景的视频任务中，如果视频在不同帧中保持汽车内饰和外景的外观一致性，展示高分辨率的稳定画面，以及真实且视觉吸引力强的构图，那么其视频感官质量将获得高分评价。

4.综合评分与反馈：

最终，我们将三个一级维度的平均分计算出来，作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。

结果将以统一的输出格式提供，包括每个单独任务的详细评分和总体评价。具体见【测评示例】。

通过上述流程，我们的测评方法，提供了一个客观、细致的技术评估框架，可以精确地评价和指导视频生成领域的技术发展。这种评估不仅帮助开发者理解产品性能，在实际应用中也极具参考价值，尤其是在优化和调整视频生成模型时。

此外，我们还以分层抽样的方式，从4个待测模型或产品中选出100个预设任务的输出，对视频质量与大模型评价的一致性进行主观打分，作为本次测评可信度的一个参考（具体见【人类一致性评估】）。

# 参评模型

注：执行测试的时间为2024年6月23日~2024年6月27日。

# 测评示例

【测评模型】：可灵

【应用场景】：影视

【提示词】：生成动漫风格的视频，一只小猫盯着鱼缸里游动的小鱼发呆。

【生成视频】：如下

【评价打分】：

----

---逐项打分开始---

我的思考与答案：

该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰，但缺乏动漫风格的特征，例如明显的线条感、夸张的表情等。

问题及改进的反馈意见：

1. 可以尝试使用卡通渲染或其他技术，使画面呈现出明显的动漫风格。

2. 小猫的眼神可以更加专注，例如放大瞳孔、增加眼神的细节等。

打分与评价开始：

1. 基于标准1（视频感官质量评估）：

- 外观一致性：小猫和鱼的外观在不同帧之间保持一致。得分：5分

- 画面稳定性：画面清晰稳定，没有明显的噪点和失真。得分：4分

- 构图真实性：小猫和鱼缸的比例协调，整体布局符合认知。得分：4分

- 视觉美观度：画面较为清晰，但缺乏动漫风格的特征。得分：2分

一级维度得分：(5+4+4+2)/4 = 3.75

2. 基于标准2（文本指令遵循能力）：

- 对象准确性：视频中出现了小猫、鱼缸和小鱼，符合文本描述。得分：5分

- 数量准确性：小猫、鱼缸和小鱼的数量均符合文本描述。得分：5分

- 要素完整性：视频展现了小猫盯着鱼缸里游动的小鱼的场景，符合文本描述。得分：5分

- 特征精准性：小猫盯着小鱼，表现出好奇或渴望的神情，符合文本描述。得分：4分

一级维度得分：(5+5+5+4)/4 = 4.75

3. 基于标准3（物理真实模拟能力）：

- 流体动力表现：鱼缸内的水流效果较为自然。得分：4分

- 动态真实性：鱼的游动姿态较为自然，但小猫的动作略显僵硬。得分：3分

- 光影效果：光影效果较为平淡，可以尝试增强明暗对比，突出立体感。得分：3分

- 交互仿真度：小猫和鱼之间缺乏互动，例如小猫可以尝试用爪子抓鱼。得分：2分

一级维度得分：(4+3+3+2)/4 = 3

综合以上，AI助手的回答的综合得分（平均分）为：[(3.75 + 4.75 + 3) / 3 = 3.83]

----逐项打分结束----

# 测评结果

总榜单

高级难度任务榜单

基础难度任务榜单

六大场景得分

# 模型对比案例

提示词1：在一个歌唱类的综艺节目中，一名女歌手身着白衣，坐在钢琴前弹唱，舞台上闪烁着金色和橙色的灯光，灯光暗处有伴奏的乐队。

【Dreamina即梦】：4.03分

【可灵】：4.42分

‍【Luma】：3.94分

【Pika】：2.75分

提示词2：生成电影剪辑片段，一架武装直升机在被摧毁的大楼之间穿梭。

【Dreamina即梦】：3.83分

【PixVerse】：3.58分

【WHEE】：3.06分

提示词3：一位老奶奶坐在小木凳上刺绣，绣出的花鸟图案栩栩如生，身后的墙面挂满了她的作品，图案类似国画风格。

【可灵】：3.92分

【Pixeling】：3.67分

【星火绘境】：3.25分

【Vega AI】：2.50分

提示词4：一辆跑车在赛道上漂移驶过急弯，并产生大量白烟。

【可灵】：4.39分

【Runway Gen-2】：3.08分

【Luma】：4.83分

【星火绘境】：3.58分

# 人类一致性评估

为确保大模型自动化测评的科学性，我们对Gemini-1.5-Pro在视频评价任务中的人类一致性进行了评估。

具体操作方法为：抽取4个模型，按任务类型进行分层抽样，对各模型对应的25个任务输出（视频）的质量进行人工评价，并与Gemini的评语评分进行比较，从“视频质量”“文本与视频对齐”“模拟物理引擎能力”三个维度考察Gemini评价与真实情况的吻合程度，给出相应的评分（优秀/良好/及格/不及格），最终覆盖100个不同任务。

最终得到的人类一致性评估结果（合格率）如下：

# 测评分析及结论

1.中文环境下，国内文生视频模型整体表现好于国外模型

由测评结果可知，Dreamina即梦（72.99分）和可灵（71.89分）在中文环境下文生视频综合能力表现出色，略好与国际代表性模型Luma（70.89分）；PixVerse、WHEE和Pixeling也有超过Pika和Runway Gen-2的表现。

2.国内模型在视频质量和中文指令遵循能力表现出色，但在模拟物理世界的能力上略有不足。

对比国内外模型可以看到，国内模型在文本指令遵循能力上稍占优势，除模型自身性能的影响外，国内模型对中文提示词更高的支持度也是重要原因；视频感官质量方面，国内模型同样优于国外模型，更贴近中华文化场景的训练数据集可能是重要因素之一；物理真实模拟能力上，国内模型则稍逊于海外模型。

3.中文高难度文生视频任务有较大区分性

Dreamina即梦、可灵和Pixverse在高难度任务上表现出色，尤其Dreamina即梦取得最高75.8分，高于Luma有5.8分。

4.不同模型在不同应用场景中表现差异较大

通过测评数据可以发现，模型在不同应用场景中表现不尽相同。Dreamina即梦在短视频和中华传统文化场景中表现最好，而可灵更擅长在资讯场景的应用。另外，Pika、PixVerse和WHEE分别在影视、广告、纪录片中有突出表现。

# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

# 邮件申请

邮件标题：视频生成测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、视频生成模型类型及简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247525169&idx=1&sn=95b7fb9bcdcc132828b7cf6095de0c3c

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉