AIGVBench：AI视频生成领域的引领性专业测评基准

文摘科技 2024-06-19 19:32 浙江

一、背景

AIGV（Artificial Intelligence Generated Video）指的是利用人工智能技术自动生成视频内容的概念。AIGV视频生成技术在近年来取得了显著进展，应用场景也正在不断拓展，包括专业媒体工作者、自媒体、非专业创作者以及企业用户。技术的进步使得视频制作流程得到极大简化，内容的多样性和定制性也得到增强。

提示词：手持追踪镜头，跟随一只红气球在废弃街道上空飘浮。（翻译自英文，视频来源Runway-Gen3。）

尽管AI视频生成技术取得了进步，但仍面临一些技术挑战，如生成时间长、视频质量不稳定、语义不连贯等问题。目前针对中国市场的视频生成大模型的基准测试还比较缺乏，无法直接评估中文视频生成大模型的质量和效果。此外，随着视频生成应用的推广，该领域已不再拘泥于“文生视频”的单一形式，逐渐出现了图生视频等多样化的视频生成概念。

为了推动视频生成领域的发展，量化视频生成模型的性能与用户体验，指导视频生成工具的落地与推广，第三方大模型测评机构SuperCLUE，推出AIGV 视频生成能力测评基准AIGVBench。

AIGVBench登录页：www.AIGVBench.com

排行榜地址：www.SuperCLUEai.com

官网地址：www.CLUEbenchmarks.com

二、AIGV概念阐述

AIGV全称Artificial Intelligence Generated Video，是AI2.0时代背景下，利用人工智能技术自动生成视频内容。

AIGVBench是建立在AIGC基础上的针对视频生成大模型应用系统及其产品的综合测评体系，包含针对文生视频、图生视频等多个大模型应用系统测评基准，旨在全面量化国内外视频智能生成大模型的发展水平与产业落地实况。

AIGVBench将深入视频生成大模型细节，以用户体验为测评导向、SuperCLUE测评基准为体系基础，定义测评任务类型、明确测评指标、细化测评流程，全面打造适应中文语义环境的视频大模型测评体系。

2.1 AIGVBench评测体系

图：AIGVBench视频生成综合性测评任务

2.1.1 文生视频

提示词：第一人称视角（FPV），在高速行进中的火车内部驾驶舱视角，穿梭于古老欧洲城市的街头。（翻译自英文，视频来源：Runway-Gen3。）

（一）视频感官质量评估

外观一致性：视频中对象的外观形态特征应一致，如人物外貌、服饰，物体外形等。
画面稳定性：视频画面要具有较高的分辨率，尽可能减少噪点和失真。
构图真实性：色彩、边界清晰，整体布局符合认知。
视觉美观度：衡量视频片段的视觉吸引力。

（二）文本指令遵循能力

对象准确性：视频需根据文本生成准确的对象。
数量准确性：视频中生成的每类对象的数量需要符合文案要求，不能增减，不仅所有对象总数要对，各类对象的个数也要对。
要素完整性：视频应全面反映文本描述的内容，即要展现出文本中所提及的全部对象。
特征精准性：视频中应精准体现文本描述的特征，包括年龄特征、大小形态、情绪表情、动作快慢等。

（三）物理真实模拟能力

流体动力表现：视频应准确模拟流体运动，如云雾、水流。
动态真实性：视频应展现真实的动态效果，与静态图像有清晰区分。对象移动和场景变换过渡自然，无明显断层。
光影效果：逼真模拟不同光线条件下的光影效果。
交互仿真度：视频中物体间的互动应如同真实世界。

（四）用户体验

视频生成时长：考察模型或产品生成单个视频所需时间，依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
应用场景设置：考量模型或产品所支持的视频生成应用场景的丰富程度，如针对具体领域的内容创作，如电影、广告、短视频等；对不同风格创作的支持，如古典风、现代风、未来风等；对于用户提出的不同编辑功能的支持，如剪辑、添加元素、视频增色等。
智能便捷操控：考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能，如一键式操作、微调工具的便捷性、零代码或低代码运行、语音控制、强指令遵循等。

2.1.2 图生视频

提示词：请根据我提供的图片生成旅游攻略相关短视频，具体内容要求为：太阳逐渐升起，雾气逐渐消散，红色的花朵随风摇曳。（视频来源：Morph Studio。）

下面是提供的图片：

（一）视频感官质量评估

外观一致性：视频中对象的外观形态特征应一致，如人物外貌、服饰，物体外形等。
画面稳定性：视频画面要具有较高的分辨率，尽可能减少噪点和失真。
构图真实性：色彩、边界清晰，整体布局符合认知。
视觉美观度：衡量视频片段的视觉吸引力。

（二）图文指令遵循能力

文本指令执行能力：考察模型按照文本命令将图片转化为视频的过程中是否严格遵循了文本中的指令要素，如细节变化、动作调整、背景转变、镜头切换等等。
画质一致度：由图片或视频按照指令生成的视频应与原图或原视频在画质上保持一致。
要素一致度：由图片或视频按照指令生成的视频中的要素应与原图或原视频中的要素在形状、色彩、比例等方面保持一致，要素包括人物、场景、物品、动植物等等。

（三）物理真实模拟能力

流体动力表现：视频应准确模拟流体运动，如云雾、水流。
动态真实性：视频应展现真实的动态效果，与静态图像有清晰区分。对象移动和场景变换过渡自然，无明显断层。
光影效果：逼真模拟不同光线条件下的光影效果。
交互仿真度：视频中物体间的互动应如同真实世界。

（四）用户体验

视频生成时长：考察模型或产品生成单个视频所需时间，依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
应用场景设置：考量模型或产品所支持的视频生成应用场景的丰富程度，如针对具体领域的内容创作，如电影、广告、短视频等；对不同风格创作的支持，如古典风、现代风、未来风等；对于用户提出的不同编辑功能的支持，如剪辑、添加元素、视频增色等。
智能便捷操控：考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能，如一键式操作、微调工具的便捷性、零代码或低代码运行、语音控制、强指令遵循等。

2.1.3 视频编辑

（一）用户体验

应用场景设置：考量模型或产品所支持的视频生成应用场景的丰富程度，如针对具体领域的内容创作，如电影、广告、短视频等；对不同风格创作的支持，如古典风、现代风、未来风等；对于用户提出的不同编辑功能的支持，如剪辑、添加元素、视频增色等。
智能便捷操控：考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能，如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。
视频编辑效率：考量视频编辑的时长，依据具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
功能丰富程度：考量平台或产品提供的视频编辑功能是否丰富，是否能在满足用户基本需求的前提下提供具有创新性的、有价值的功能。

（二）视频编辑功能评估

编辑指令遵循：系统应按照用户指令对视频进行编辑，编辑后的结果应该在形式上符合用户需求。
视听增效：对需要编辑的视频进行配音、翻译、添加字幕、添加背景音乐或表情包等操作的效果至少需要达到用户的基本要求。
质量改善：考察编辑后的视频在画质、光感、色彩等质量上是否有所提升。

2.1.4 数字人视频

提示词：请根据我提供的图片生成旅游攻略相关短视频，具体内容要求为：太阳逐渐升起，雾气逐渐消散，红色的花朵随风摇曳。（视频来源：奇妙元。）

（一）用户体验

视频生成时长：考察模型或产品生成单个视频所需时间，依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
应用场景设置：考量模型或产品所支持的视频生成应用场景的丰富程度，如针对具体领域的内容创作，如电影、广告、短视频等；对不同风格创作的支持，如古典风、现代风、未来风等；对于用户提出的不同编辑功能的支持，如剪辑、添加元素、视频增色等。
智能便捷操控：考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能，如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。
视觉舒适度：考量模型所生成的视频是否给用户一种真实的感官，同时画面应具备较强的舒适性，不能发生严重引人不适的扭曲、变形。

（二）文本指令遵循能力

对象准确性：视频需根据文本生成准确的对象。
数量准确性：视频中生成的每类对象的数量需要符合文案要求，不能增减，不仅所有对象总数要对，各类对象的个数也要对。
要素完整性：视频应全面反映文本描述的内容，即要展现出文本中所提及的全部对象。
特征精准性：视频中应精准体现文本描述的特征，包括年龄特征、大小形态、情绪表情、动作快慢等。

（三）仿真效果评估

人脸仿真度：生成的视频应对人的面部特征进行高仿真度还原。
表情仿真度：生成的视频应对人的面部表情进行高度仿真，如口型、眨眼、面部肌肉活动等等。
语音仿真度：生成的视频应流畅地复原人类语言，在语音、语调、语种方面进行高度仿真。
动作仿真度：生成的视频应对人类的动作进行高仿真度还原，如手势、肢体动作等。
3D立体建构：生成的视频应格外注重元素的立体观感。

2.1.5 AI动画

（一）视频感官质量评估

外观一致性：视频中对象的外观形态特征应一致，如人物外貌、服饰，物体外形等。
画面稳定性：视频画面要具有较高的分辨率，尽可能减少噪点和失真。
构图真实性：色彩、边界清晰，整体布局符合认知。
视觉美观度：衡量视频片段的视觉吸引力。

（二）用户体验

视频生成时长：考察模型或产品生成单个视频所需时间，依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
应用场景设置：考量模型或产品所支持的视频生成应用场景的丰富程度，如针对具体领域的内容创作，如电影、广告、短视频等；对不同风格创作的支持，如古典风、现代风、未来风等；对于用户提出的不同编辑功能的支持，如剪辑、添加元素、视频增色等。
智能便捷操控：考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能，如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。
资源丰富度：考量平台或产品是否为用户提供较为丰富的动画创作素材。

（三）文本指令遵循能力

对象准确性：视频需根据文本生成准确的对象。
数量准确性：视频中生成的每类对象的数量需要符合文案要求，不能增减，不仅所有对象总数要对，各类对象的个数也要对。
要素完整性：视频应全面反映文本描述的内容，即要展现出文本中所提及的全部对象。
特征精准性：视频中应精准体现文本描述的特征，包括年龄特征、大小形态、情绪表情、动作快慢等。

（四）动画质量评估

画面张力：考察画面的感染力，即画面的构图、画面的视角变化等技巧的运用，达到让观众观看画面，却可以得到画面以外的感触的效果，即视觉冲突与共情能力。
视听流畅度：生成的视频应做到基本的音画同步，不应该存在明显的卡顿与音画不一致现象。
动画主题鲜明性：生成的动画应具有格外鲜明的主题色彩。
角色特征显著性：考察动画角色是否具有鲜明的特点，如表情、造型、语言、服饰等等，可以达到给观众留下深刻印象的效果。

2.1.6 实时交互视频

（一）视频感官质量评估

外观一致性：视频中对象的外观形态特征应一致，如人物外貌、服饰，物体外形等。
画面稳定性：视频画面要具有较高的分辨率，尽可能减少噪点和失真。
构图真实性：色彩、边界清晰，整体布局符合认知。
视觉美观度：衡量视频片段的视觉吸引力。

（二）用户体验

应用场景设置：考量模型或产品所支持的视频生成应用场景的丰富程度，如针对具体领域的内容创作，如电影、广告、短视频等；对不同风格创作的支持，如古典风、现代风、未来风等；对于用户提出的不同编辑功能的支持，如剪辑、添加元素、视频增色等。
智能便捷操控：考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能，如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。
真实交互体验与有效沟通：综合考量实时交互过程中人机交互的体验与沟通的效果。

（三）实时交互能力评估

交互及时性：交互过程应对用户的反应做出及时的回应，避免长时间的卡顿与停滞。
语义理解能力：交互过程中，生成的视频应对用户的语音指令进行正确的理解并进行回复。

2.2 AIGVBench测评场景

资讯：考察模型或应用针对新闻媒体领域应用场景的视频生成与编辑能力，如采访、宣传片、新闻播报、新闻发布会等等。
广告：考察模型或应用针对广告领域应用场景的视频生成与编辑能力，常见的广告类型如食品、药品、日用品、汽车、服装等等。
电影：考察模型或应用针对电影领域应用场景的视频生成与编辑能力，常见的电影主题如剧情、喜剧、爱情、动作、恐怖、科幻、悬疑、历史等等。
纪录片：考察模型或应用针对纪录片领域应用场景的视频生成与编辑能力，常见的科幻片题材如历史、科普、自然、传记等等。
短视频：考察模型或应用针对短视频领域应用场景的视频生成与编辑能力，常见的短视频类型如探店猎奇、旅游攻略、游戏解说、影视解说、好物分享等等。
中华文化场景：考察模型或应用针对短视频领域应用场景的视频生成与编辑能力，重点考察的文化元素包括节日场面、中华礼仪、中华饮食、历史文学、非遗传承等等。

2.3视频生成模型或产品汇总

#文生视频

按照模型首字母顺序排列

#图生视频

按照模型首字母顺序排列

#视频编辑

按照模型首字母顺序排列

#数字人视频

按照模型首字母顺序排列

#AI动画

按照模型首字母顺序排列

#实时交互视频

按照模型首字母顺序排列

三、AIGV测评基准意义

AIGVBench通过统筹规划AI视频评测并发布结果，一是为业界展示国产大模型价值；二是指导国产大模型的研发与落地，推出国产优质AI产品；三是找出细分技术维度差距，国产大模型团队进行自我技术提升。SuperCLUE（SC）榜单作为构成AIGVBench框架的细则指标，逐渐充实并完善AIGV概念下的视频生成的各类应用系统测评体系，为中文原生视频生成大模型及其产品测评提供量化基准。

指导行业应用：榜单的发布可以引导市场对AI工具的选择，为视听行业的AI工具选择和应用提供参考，帮助企业更好地利用AI技术提升产品和服务。
研判落地方向：榜单能够展示不同AI模型在特定应用场景下的性能表现，从而揭示AI技术在媒体领域的应用潜力和发展方向，为媒体行业的创新发展提供指导。
行业创新驱动：通过对AI模型的多维度评估，可以激发行业内的创新思维，推动AI技术在视听领域的新应用和新业务模式的探索。

四、评估方法

4.1 评估方法的思路

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

4.2 测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt，参考国际标准和当前已有工作，针对每一个维度构建专用的测评集。

4.3 评分方法

评估流程：1.获得<中文prompt>-->2.依据评估标准-->3.使用评分规则-->4. 进行细粒度打分。

结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本输入、视频送入超级模型进行评估，并获得每一个维度的评估结果。进行评估与人类一致性分析，并报告一致性表现。

比如，针对雪地巨象漫步在午后阳光下的冬日仙境这个视频的【文本与视频对齐】这个一级维度，使用对象一致性、要素完整性、特征准确性、程度区分、时空表现四个具体维度进行评估。具体的说：在对象一致性中，大象外观“体型”是否保持一致；要素完整性中，是否出现了“多头”大象；特征准确性中，是否有存在“雪地”；程度区分中，大象是“行走速度”如何（缓缓而行）；时空表现中，大象的“毛发飘扬”是否顺着时间展开有所体现。

五、测评邀请

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

六、测评申请

邮件标题：视频生成测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、视频生成模型类型及简介、联系人和所属部门、联系方式

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247523500&idx=1&sn=18b629e1e860256cf63e3695b2ce6ff1

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图