文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

文摘科技 2024-08-01 11:56 浙江

2024年7月31日，中文专用的多层次文生视频基准测评AIGVBench-T2V发布更新，新增了四大模型：Runway Gen-3、智谱清影、可灵网页版和 PixVerse V2。

本次更新进一步丰富了测评基准的广度和深度。其中，Runway Gen-3 是由位于美国的公司 Runway 开发，代表了海外模型的先进水平。与此同时，智谱清影、可灵网页版和 PixVerse V2 均由国内领先的人工智能公司研制，展示了中国在视频生成技术领域的卓越成果。AIGVBench 通过引入这些新模型，旨在为用户提供更全面的评测数据，帮助他们在选择视频生成工具时作出更为明智的决策，促进中文视频生成领域的研究、开发与技术创新。

# 测评结果首览

总榜单

六大场景得分

排行榜地址：www.SuperCLUEai.com

官网地址：www.CLUEbenchmarks.com

AIGVBench登录页：www.AIGVBench.com

# 测评体系

AIGVBench-T2V文生视频测评体系包括测评指标与应用场景，其中测评指标汇总如下：

文生视频测评设置了六大应用场景：资讯、广告、电影、纪录片、短视频、中华文化场景。具体信息如下：

# 测评方法

在本研究中，我们通过使用具备视频理解的超级模型（Gemini-1.5-Pro），对视频生成技术的性能进行了全面的评估。该评估流程分为以下几个步骤：

1.任务分配与数据采集：

我们从待评估的模型或产品中选取了100个预设任务，这些任务代表了不同的视频生成需求，包括了6大应用场景。例如，一个任务可能是根据给定的文本描述一辆SUV汽车内部空间及外部风景的视频。

2.评分标准与提示词使用：

Gemini-1.5-Pro根据预先定义的提示词（prompt）进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求，确保评分的一致性和公正性。

例如，对于感官质量的评分，提示词可能指定要考虑视频的画面稳定性、外观一致性和视觉美观度。

3.自动化评分：

Gemini-1.5-Pro将根据视频的感官质量、文本指令的遵循程度、以及视频中物理现象的真实模拟能力进行自动化评分。

每个一级维度都会得到一个分数，例如，在SUV汽车内部空间及外部风景的视频任务中，如果视频在不同帧中保持汽车内饰和外景的外观一致性，展示高分辨率的稳定画面，以及真实且视觉吸引力强的构图，那么其视频感官质量将获得高分评价。

4.综合评分与反馈：

最终，我们将三个一级维度的平均分计算出来，作为模型或产品的总评分。这个分数综合反映了视频生成技术的综合性能。

结果将以统一的输出格式提供，包括每个单独任务的详细评分和总体评价。具体见【测评示例】。

通过上述流程，我们的测评方法，提供了一个客观、细致的技术评估框架，可以精确地评价和指导视频生成领域的技术发展。这种评估不仅帮助开发者理解产品性能，在实际应用中也极具参考价值，尤其是在优化和调整视频生成模型时。

此外，我们还以分层抽样的方式，从4个待测模型或产品中选出100个预设任务的输出，对视频质量与大模型评价的一致性进行主观打分，作为本次测评可信度的一个参考（具体见【人类一致性评估】）。

# 新增模型

注：执行测试的时间为2024年7月29日~2024年7月31日。

# 测评示例

【测评模型】：可灵

【应用场景】：影视

【提示词】：生成动漫风格的视频，一只小猫盯着鱼缸里游动的小鱼发呆。

【生成视频】：如下

【评价打分】：

----

---逐项打分开始---

我的思考与答案：

该视频片段展示了一只小猫盯着鱼缸里游动的小鱼的场景。画面较为清晰，但缺乏动漫风格的特征，例如明显的线条感、夸张的表情等。

问题及改进的反馈意见：

1. 可以尝试使用卡通渲染或其他技术，使画面呈现出明显的动漫风格。

2. 小猫的眼神可以更加专注，例如放大瞳孔、增加眼神的细节等。

打分与评价开始：

1. 基于标准1（视频感官质量评估）：

- 外观一致性：小猫和鱼的外观在不同帧之间保持一致。得分：5分

- 画面稳定性：画面清晰稳定，没有明显的噪点和失真。得分：4分

- 构图真实性：小猫和鱼缸的比例协调，整体布局符合认知。得分：4分

- 视觉美观度：画面较为清晰，但缺乏动漫风格的特征。得分：2分

一级维度得分：(5+4+4+2)/4 = 3.75

2. 基于标准2（文本指令遵循能力）：

- 对象准确性：视频中出现了小猫、鱼缸和小鱼，符合文本描述。得分：5分

- 数量准确性：小猫、鱼缸和小鱼的数量均符合文本描述。得分：5分

- 要素完整性：视频展现了小猫盯着鱼缸里游动的小鱼的场景，符合文本描述。得分：5分

- 特征精准性：小猫盯着小鱼，表现出好奇或渴望的神情，符合文本描述。得分：4分

一级维度得分：(5+5+5+4)/4 = 4.75

3. 基于标准3（物理真实模拟能力）：

- 流体动力表现：鱼缸内的水流效果较为自然。得分：4分

- 动态真实性：鱼的游动姿态较为自然，但小猫的动作略显僵硬。得分：3分

- 光影效果：光影效果较为平淡，可以尝试增强明暗对比，突出立体感。得分：3分

- 交互仿真度：小猫和鱼之间缺乏互动，例如小猫可以尝试用爪子抓鱼。得分：2分

一级维度得分：(4+3+3+2)/4 = 3

综合以上，AI助手的回答的综合得分（平均分）为：[(3.75 + 4.75 + 3) / 3 = 3.83]

----逐项打分结束----

# 测评结果

总榜单

高级难度任务榜单

基础难度任务榜单

六大场景得分

# 模型对比案例

提示词1：生成一辆汽车连续穿过森林、山地、浅滩的广告视频。

【Runway Gen-3】：4分

【智谱清影】：4.17分

【可灵网页版】：3.83分

【PixVerse V2】：3.75分

提示词2：在一个半导体工厂中，一个工程师模样的老年男子正在接受采访，背景是芯片产品的生产线。

【Runway Gen-3】：4.83分

【PixVerse V2】：3.47分

提示词3：生成动漫风格的视频，一只金色的凤凰和一条黑色的恶犬在空中斗法，天空中乌云密布、电闪雷鸣。

【Runway Gen-3】：4.42分

【PixVerse】：3.25分

【可灵网页版】：3.61分

# 测评分析及结论

1.Runway Gen-3 在综合得分和多项指标中表现最佳

Runway Gen-3 在各个场景中的评分普遍较高，尤其是在资讯（81.9分）、影视（79.18分）和短视频（80.18分）方面表现尤为突出，显示出其在多种应用场景中的强大能力。智谱清影由智谱华章开发，以75.08分排名国内第一，特别擅长文本指令遵循。可灵网页版由快手开发，以75.02并列国内第一，表现稳定可靠。PixVerse V2 由爱诗科技开发，以73.32分排名国内第二，表现均衡且适应性强。

2.智谱清影和 Dreamina即梦在中国文化场景中表现突出

在中国文化场景中，智谱清影（76.65）和 Dreamina即梦（82.00）表现优异，特别是 Dreamina即梦在这一场景下得分最高，达到82.00。这表明这些国内模型在处理与中国文化相关的视频生成任务时具备显著优势，能够更好地理解和呈现中国文化元素，适合用于本土化的内容创作。

3.国内模型在高难度任务中表现强劲：

国内模型如智谱华章的智谱清影（75.24）和字节跳动的 Dreamina即梦（75.80）在高难度任务中表现优异，分别位列国内第三和第一。此外，快手的可灵网页版（73.13）和可灵（70.98）也表现不俗，进入国内前五。这显示了国内模型在高难度任务处理上的强劲实力和竞争力。

# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

# 邮件申请

邮件标题：视频生成测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、视频生成模型类型及简介、联系人和所属部门、联系方式

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247526623&idx=1&sn=fd5c2869d814376903b23a9976074dbf

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉