AIGVBench登录页:www.AIGVBench.com
官网地址:www.CLUEbenchmarks.com
AIGV全称Artificial Intelligence Generated Video,是AI2.0时代背景下,利用人工智能技术自动生成视频内容。
外观一致性:视频中对象的外观形态特征应一致,如人物外貌、服饰,物体外形等。
画面稳定性:视频画面要具有较高的分辨率,尽可能减少噪点和失真。 构图真实性:色彩、边界清晰,整体布局符合认知。 视觉美观度:衡量视频片段的视觉吸引力。
对象准确性:视频需根据文本生成准确的对象。 数量准确性:视频中生成的每类对象的数量需要符合文案要求,不能增减,不仅所有对象总数要对,各类对象的个数也要对。 要素完整性:视频应全面反映文本描述的内容,即要展现出文本中所提及的全部对象。 特征精准性:视频中应精准体现文本描述的特征,包括年龄特征、大小形态、情绪表情、动作快慢等。
流体动力表现:视频应准确模拟流体运动,如云雾、水流。
动态真实性:视频应展现真实的动态效果,与静态图像有清晰区分。对象移动和场景变换过渡自然,无明显断层。
光影效果:逼真模拟不同光线条件下的光影效果。
交互仿真度:视频中物体间的互动应如同真实世界。
(四)用户体验
视频生成时长:考察模型或产品生成单个视频所需时间,依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
应用场景设置:考量模型或产品所支持的视频生成应用场景的丰富程度,如针对具体领域的内容创作,如电影、广告、短视频等;对不同风格创作的支持,如古典风、现代风、未来风等;对于用户提出的不同编辑功能的支持,如剪辑、添加元素、视频增色等。 智能便捷操控:考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能,如一键式操作、微调工具的便捷性、零代码或低代码运行、语音控制、强指令遵循等。
下面是提供的图片:
(一)视频感官质量评估
外观一致性:视频中对象的外观形态特征应一致,如人物外貌、服饰,物体外形等。 画面稳定性:视频画面要具有较高的分辨率,尽可能减少噪点和失真。
构图真实性:色彩、边界清晰,整体布局符合认知。
视觉美观度:衡量视频片段的视觉吸引力。
(二)图文指令遵循能力
文本指令执行能力:考察模型按照文本命令将图片转化为视频的过程中是否严格遵循了文本中的指令要素,如细节变化、动作调整、背景转变、镜头切换等等。
画质一致度:由图片或视频按照指令生成的视频应与原图或原视频在画质上保持一致。 要素一致度:由图片或视频按照指令生成的视频中的要素应与原图或原视频中的要素在形状、色彩、比例等方面保持一致,要素包括人物、场景、物品、动植物等等。
(三)物理真实模拟能力
流体动力表现:视频应准确模拟流体运动,如云雾、水流。
动态真实性:视频应展现真实的动态效果,与静态图像有清晰区分。对象移动和场景变换过渡自然,无明显断层。 光影效果:逼真模拟不同光线条件下的光影效果。 交互仿真度:视频中物体间的互动应如同真实世界。
(四)用户体验
视频生成时长:考察模型或产品生成单个视频所需时间,依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
应用场景设置:考量模型或产品所支持的视频生成应用场景的丰富程度,如针对具体领域的内容创作,如电影、广告、短视频等;对不同风格创作的支持,如古典风、现代风、未来风等;对于用户提出的不同编辑功能的支持,如剪辑、添加元素、视频增色等。 智能便捷操控:考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能,如一键式操作、微调工具的便捷性、零代码或低代码运行、语音控制、强指令遵循等。
2.1.3 视频编辑
(一)用户体验
应用场景设置:考量模型或产品所支持的视频生成应用场景的丰富程度,如针对具体领域的内容创作,如电影、广告、短视频等;对不同风格创作的支持,如古典风、现代风、未来风等;对于用户提出的不同编辑功能的支持,如剪辑、添加元素、视频增色等。
智能便捷操控:考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能,如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。 视频编辑效率:考量视频编辑的时长,依据具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。
功能丰富程度:考量平台或产品提供的视频编辑功能是否丰富,是否能在满足用户基本需求的前提下提供具有创新性的、有价值的功能。
编辑指令遵循:系统应按照用户指令对视频进行编辑,编辑后的结果应该在形式上符合用户需求。
视听增效:对需要编辑的视频进行配音、翻译、添加字幕、添加背景音乐或表情包等操作的效果至少需要达到用户的基本要求。
质量改善:考察编辑后的视频在画质、光感、色彩等质量上是否有所提升。
(一)用户体验
视频生成时长:考察模型或产品生成单个视频所需时间,依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。 应用场景设置:考量模型或产品所支持的视频生成应用场景的丰富程度,如针对具体领域的内容创作,如电影、广告、短视频等;对不同风格创作的支持,如古典风、现代风、未来风等;对于用户提出的不同编辑功能的支持,如剪辑、添加元素、视频增色等。 智能便捷操控:考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能,如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。 视觉舒适度:考量模型所生成的视频是否给用户一种真实的感官,同时画面应具备较强的舒适性,不能发生严重引人不适的扭曲、变形。
(二)文本指令遵循能力
对象准确性:视频需根据文本生成准确的对象。 数量准确性:视频中生成的每类对象的数量需要符合文案要求,不能增减,不仅所有对象总数要对,各类对象的个数也要对。 要素完整性:视频应全面反映文本描述的内容,即要展现出文本中所提及的全部对象。 特征精准性:视频中应精准体现文本描述的特征,包括年龄特征、大小形态、情绪表情、动作快慢等。
(三)仿真效果评估
人脸仿真度:生成的视频应对人的面部特征进行高仿真度还原。 表情仿真度:生成的视频应对人的面部表情进行高度仿真,如口型、眨眼、面部肌肉活动等等。 语音仿真度:生成的视频应流畅地复原人类语言,在语音、语调、语种方面进行高度仿真。 动作仿真度:生成的视频应对人类的动作进行高仿真度还原,如手势、肢体动作等。 3D立体建构:生成的视频应格外注重元素的立体观感。
(一)视频感官质量评估
外观一致性:视频中对象的外观形态特征应一致,如人物外貌、服饰,物体外形等。 画面稳定性:视频画面要具有较高的分辨率,尽可能减少噪点和失真。 构图真实性:色彩、边界清晰,整体布局符合认知。 视觉美观度:衡量视频片段的视觉吸引力。
(二)用户体验
视频生成时长:考察模型或产品生成单个视频所需时间,依据生成视频的文案具体要求的复杂程度动态设定生成时长的“快”、“中”、“慢”三级。每一个级别在相应的复杂度下换算成相应的分数。 应用场景设置:考量模型或产品所支持的视频生成应用场景的丰富程度,如针对具体领域的内容创作,如电影、广告、短视频等;对不同风格创作的支持,如古典风、现代风、未来风等;对于用户提出的不同编辑功能的支持,如剪辑、添加元素、视频增色等。 智能便捷操控:考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能,如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。 资源丰富度:考量平台或产品是否为用户提供较为丰富的动画创作素材。
(三)文本指令遵循能力
对象准确性:视频需根据文本生成准确的对象。 数量准确性:视频中生成的每类对象的数量需要符合文案要求,不能增减,不仅所有对象总数要对,各类对象的个数也要对。 要素完整性:视频应全面反映文本描述的内容,即要展现出文本中所提及的全部对象。 特征精准性:视频中应精准体现文本描述的特征,包括年龄特征、大小形态、情绪表情、动作快慢等。
(四)动画质量评估
画面张力:考察画面的感染力,即画面的构图、画面的视角变化等技巧的运用,达到让观众观看画面,却可以得到画面以外的感触的效果,即视觉冲突与共情能力。
视听流畅度:生成的视频应做到基本的音画同步,不应该存在明显的卡顿与音画不一致现象。
动画主题鲜明性:生成的动画应具有格外鲜明的主题色彩。
角色特征显著性:考察动画角色是否具有鲜明的特点,如表情、造型、语言、服饰等等,可以达到给观众留下深刻印象的效果。
(一)视频感官质量评估
外观一致性:视频中对象的外观形态特征应一致,如人物外貌、服饰,物体外形等。
画面稳定性:视频画面要具有较高的分辨率,尽可能减少噪点和失真。 构图真实性:色彩、边界清晰,整体布局符合认知。 视觉美观度:衡量视频片段的视觉吸引力。
应用场景设置:考量模型或产品所支持的视频生成应用场景的丰富程度,如针对具体领域的内容创作,如电影、广告、短视频等;对不同风格创作的支持,如古典风、现代风、未来风等;对于用户提出的不同编辑功能的支持,如剪辑、添加元素、视频增色等。
智能便捷操控:考量模型或产品所提供的窗口与平台是否支持视频的智能创作与编辑等功能,如一键式操作、零代码或低代码运行、语音控制、强指令遵循等。 真实交互体验与有效沟通:综合考量实时交互过程中人机交互的体验与沟通的效果。
交互及时性:交互过程应对用户的反应做出及时的回应,避免长时间的卡顿与停滞。
语义理解能力:交互过程中,生成的视频应对用户的语音指令进行正确的理解并进行回复。
资讯:考察模型或应用针对新闻媒体领域应用场景的视频生成与编辑能力,如采访、宣传片、新闻播报、新闻发布会等等。 广告:考察模型或应用针对广告领域应用场景的视频生成与编辑能力,常见的广告类型如食品、药品、日用品、汽车、服装等等。 电影:考察模型或应用针对电影领域应用场景的视频生成与编辑能力,常见的电影主题如剧情、喜剧、爱情、动作、恐怖、科幻、悬疑、历史等等。 纪录片:考察模型或应用针对纪录片领域应用场景的视频生成与编辑能力,常见的科幻片题材如历史、科普、自然、传记等等。 短视频:考察模型或应用针对短视频领域应用场景的视频生成与编辑能力,常见的短视频类型如探店猎奇、旅游攻略、游戏解说、影视解说、好物分享等等。 中华文化场景:考察模型或应用针对短视频领域应用场景的视频生成与编辑能力,重点考察的文化元素包括节日场面、中华礼仪、中华饮食、历史文学、非遗传承等等。
#文生视频
按照模型首字母顺序排列
#图生视频
按照模型首字母顺序排列
按照模型首字母顺序排列
#数字人视频
按照模型首字母顺序排列
#AI动画
按照模型首字母顺序排列
按照模型首字母顺序排列
指导行业应用:榜单的发布可以引导市场对AI工具的选择,为视听行业的AI工具选择和应用提供参考,帮助企业更好地利用AI技术提升产品和服务。
研判落地方向:榜单能够展示不同AI模型在特定应用场景下的性能表现,从而揭示AI技术在媒体领域的应用潜力和发展方向,为媒体行业的创新发展提供指导。 行业创新驱动:通过对AI模型的多维度评估,可以激发行业内的创新思维,推动AI技术在视听领域的新应用和新业务模式的探索。
4.1 评估方法的思路
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。
4.2 测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt,参考国际标准和当前已有工作,针对每一个维度构建专用的测评集。
4.3 评分方法
比如,针对雪地巨象漫步在午后阳光下的冬日仙境这个视频的【文本与视频对齐】这个一级维度,使用对象一致性、要素完整性、特征准确性、程度区分、时空表现四个具体维度进行评估。具体的说:在对象一致性中,大象外观“体型”是否保持一致;要素完整性中,是否出现了“多头”大象;特征准确性中,是否有存在“雪地”;程度区分中,大象是“行走速度”如何(缓缓而行);时空表现中,大象的“毛发飘扬”是否顺着时间展开有所体现。
五、测评邀请
1. 邮件申请
2. 意向沟通
5. 获得测评报告
邮件标题:视频生成测评申请,发送到contact@superclue.ai