文生视频大模型最新基准11月榜单发布！Top3国产大模型表现亮眼，7大维度27大任务10大模型

文摘科技 2024-11-12 14:17 浙江

中大模型文生视频生成（SuperCLUE-T2V）测评基准发布，旨在深入评估模型的文生视频生成能力。该测评不仅关注模型的视频画质，还重点考察其文本理解与遵循能力。测评内容涵盖了视频画质、外观遵循能力、动态遵循能力等基础与技术性的考核，以及不同应用场景下的视频质量，全面检验模型在不同应用场景任务中的表现。

测评方案见：文生视频大模型「新版」测评基准（方案）发布。本次我们测评了国内外10个代表性大模型的文生视频生成能力，以下为详细测评报告。

文生视频测评摘要

测评要点1：PixVerse V3在文生视频生成能力上稍微领先

PixVerse V3取得了82.02分，稍微领先于其它文生视频模型。其中基础与技术和应用场景两方面的得分都名列前茅，展现出较强的场景适配性和落地能力。

测评要点2：在中文任务和场景上，国产文生视频大模型具有相对优势

榜单前五有四个国内模型，其中PixVerse V3和海螺视频分别以总分82.02分和81.50分并列第一；可灵AI 1.5以80.92的总分排名第二；通义万相以78.19的总分排名第三。测评模型中国内七个模型的平均分为77.71分，国外三个模型的平均分为76.54分，国内模型比国外模型平均高了1.17分，表明目前国内文生视频模型暂时领先于国外文生视频模型。

测评要点3：国内文生视频模型的动态遵循能力仍需提升

国内模型在视频画质里的平均分高达88.74分，在外观遵循能力方面平均分也得了72.47分，在各应用场景方面平均分也位于75-85分左右；但在动态遵循能力方面国内文生视频模型的得分都低于70 分，平均得分61.40分，与其他测评任务相比平均相差了19.61分，仍有较大的进步空间。

测评要点4：Runway Gen3测评排名得分情况与预期的差别

Runway Gen3被誉为现今国外乃至全球发展较好的文生视频模型之一，但在这次的测评里它的表现并不理想。在经过我们的研究与实验结果得出，Runway Gen3对于提示词撰写的要求较高，文本的长度也一定的影响了它视频生成的能力。为了保持测评的公平性，我们统一调用了同样的提示词，并不遵循任何模型在官网上对提示词的要求，保持绝对的公平性与专业性。

# 榜单概览

榜单地址：www.superclueai.com

详情请查看下方#正文。

#SuperCLUE-T2V介绍

SuperCLUE-T2V是中文文生视频模型综合性测评集准，旨在为中文领域提供一个文生视频模型视频生成能力评估参考。该基准包括基础与技术以及应用场景两大方向，涵盖7个一级维度与27个二级维度。

SuperCLUE-T2V通过一系列详尽的评估指标和测试数据集，全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。其设计融合了国际基准的架构及针对中文环境的特殊需求，旨在促进中文视频生成领域的研究、开发与技术创新。

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。但现阶段，由于超级模型的能力有限，其对于部分评判难度较高的任务难以胜任，因此我们采取了超级模型评估+人工评估的测评方法。具体而言，我们将七个评判难度较高的二级任务通过人工进行评估，这七个任务包括：数量精准性、空间关系、主体交互准确性、动作、动漫、广告以及游戏。

1）测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt；针对每一个维度构建专用的测评集。

2）评分方法

Gemini-1.5-Pro与测评人员将根据预先定义的提示词（prompt）进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求，确保评分的一致性和公正性。

例如，对于数量精准性的评分，提示词将指定考虑视频的主体数量精准性和背景物体数量精准性。

3）评分标准

SuperCLUE-T2V根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况，Gemini-1.5-Pro打分1-10分，综合各个标准的得分得到平均分。

SuperCLUE-T2V文生视频测评体系包括基础与技术大类的测评指标以及应用场景，其中测评指标汇总如下：

测评示例

提示词Prompt：一只小猫正在玩毛线球，它伸出爪子拨弄毛线球，动作轻盈灵活。

模型回答：

超级模型（Gemini-1.5-Pro）裁判：

----逐项打分开始----

我的思考与答案：视频中展示了一只小猫在玩毛线球，它用爪子拨弄毛线球，符合提示词的要求。

问题及改进的反馈意见：小猫的动作有些僵硬，不够流畅自然。毛线球的运动轨迹也略显生硬，可以改进毛线球的物理模拟，使其运动更符合现实。

- 动作准确性：小猫的动作与提示词描述基本一致，它确实在用爪子拨弄毛线球。得分：8分

- 动作自然性：小猫的动作略显僵硬，不够流畅自然，毛线球的运动轨迹也略显生硬。得分：6分

- 综合以上，该模型的综合得分（平均分）为(8 + 6) / 2 = [[7.00]]

----逐项打分结束----

# 参评模型

为综合衡量当前国内外大模型在文生视频能力的发展水平，本次测评选取了3个海外代表模型和7个国内模型。

# 测评结果

总榜单

基础与技术榜单

应用场景榜单

# 模型对比示例

#多个主体动态准确性

提示词Prompt：「海边有两个小孩在堆沙堡，还有一个成年男子树下乘凉。」

英文提示词：「 At the beach, two children are building a sandcastle, while an adult man relaxes in the shade under a tree. 」

模型回答比较（满分10分）：

【PixVerse V3】：8分：

【海螺视频】：7分：

【通义万相】：3.5分：

【Runway Gen3】：3分：

#示例2-背景画面画质

提示词：「朦胧的薄雾笼罩着山谷，远山如黛，近水含烟。」

模型回答比较（满分10分）：

【可灵AI 1.5】：9.67分：

【海螺视频】：9分：

【Vidu】：5.33分：

#示例3-主体外观准确性

提示词：「夜晚的海滩上，一位渔夫穿着破旧的工作服，在月光下专注地修补渔网。」

英文提示词：「 On the beach at night, a fisherman in worn-out work clothes focuses intently on mending his fishing net under the moonlight. 」

模型回答比较（满分10分）：

【Luma DreamMachine1.6】：10分：

【PixVerse V3】：8分：

【Dreamina即梦AI】：6分：

【Pika1.5】：5分：

#示例4-数量精准性

提示词：「花瓶里插着五朵玫瑰花，其中三朵是红色的，两朵是白色的。花瓶旁边放着两本书。」

模型回答比较（满分10分）：

【Luma】：9.8分：

【PixVerse V3】：8分：

【智谱清影】：4.5分：

#示例5-历史文学

提示词：「一片辽阔的草原上，曹操身披铠甲，手持长槊，骑在战马上，目视前方的大河，河水奔腾不息，铠甲在阳光下闪烁着寒光。」

模型回答比较（满分10分）：

【海螺视频】：8.6分：

【可灵AI 1.5】：8.4分：

【Runway Gen3】：6分：

# 人类一致性评估

为确保大模型自动化测评的科学性，我们对Gemini-1.5-Pro在文生视频评价任务中的人类一致性进行了评估。

具体操作方法为：抽取5个模型，每个模型让一个人进行独立打分（十分制），并从20个自动化评估的二级任务内随机抽取一题，每人共评20题，再与Gemini-1.5-Pro的评分进行比较。将每题的人工打分减去模型打分，再求平均分差数。将5个模型的平均分差数求和取总平均分差作为人类一致性评估的评估结果。

最终得到的平均结果如下：

平均差异结果为（百分制）：-5.4 分。

因此本次自动化评价有较高可靠性。

# 测评分析及结论

1.PixVerse V3的综合表现较好，总分最高。

PixVerse V3的综合得分都普遍较高，尤其在视频画质（95.20分）的表现极其突出，在应用场景方面的得分也都在80分以上，显示出其在基础技术方面与多种应用场景中的强大能力，最后便以82.20分排名国内第一。由MiniMax开发的海螺视频在日常生活（90.40分）的表现也较为出色，以81.50分并列国内第一，表现稳定可靠。可灵AI 1.5由快手开发，以80.92分排名国内第二，表现均衡且适应性强。

2.国内文生视频模型在外观与动态遵循能力上尚有一定的提升空间，在视频画质方面表现不俗。

国内文生视频模型在外观与动态遵循能力方面，还有一定的提升空间。在视频画质方面有一定的落地优势。国内模型在视频画质里的平均分高达88.74分，在外观遵循能力方面平均分也得了72.47分，还有改进的地方；但在动态遵循能力方面国内文生视频模型的得分都低于70 分，平均得分61.40分，与其他测评任务相比平均相差了19.61分，国内共有三个模型低于60分，仍有较大的进步空间。

3.综合视频生成能力方面，国内模型不输国外模型

国外最好模型在外观遵循能力和日常生活上的表现较为出色；但是国内最好模型在视频画质和影视方面有表现得较优异，在中国文化场景、应用和动态遵循能力方面也不俗。

# Runway Gen3的得分状况专业性分析

1.Runway Gen3在视频画质的得分不错，但在外观与动态遵循能力方面仍有较大的进步空间

Runway Gen3在视频画质方面的得分比国外最好模型的得分要高，甚至在日常生活里的得分也是最高的；但是在外观遵循能力与动态遵循能力方面的得分并不理想，在其他应用场景里由于指令遵循的要求较多，难度较高，所以也获得了较低的分数。

2.使用统一的提示词生成视频

我们进行测试之前也调查了有关不同模型对于提示词的要求也不同；而为了测试的公平性，我们在设计提示词的过程中都不会参照任何模型对于提示词的要求，主要考核了模型的通用性与文本理解能力，这也因此影响到了这次的测试模型的排名。关于Runway Gen3对提示词的要求，具体可参照官网https://help.runwayml.com/hc/en-us/articles/30586818553107-Gen-3-Alpha-Prompting-Guide

Runway Gen3撰写提示词具体要求：

[camera movement]: [establishing scene]. [additional details].

[运镜]: [场景描述]. [附加条件]

我们也对此进行了深入的研究，提供了相同意思但不同语句编排的提示词，具体示例如下：

【中文提示词】：镜头以一个白色的杯子开始，随后镜头缓缓向右移动，转而聚焦到一个办公男人身上，男人眼睛一直盯着电脑，手不停地敲打键盘。

【实验1】：The shot begins with a white cup, then slowly pans to the right, focusing on a businessman at his desk. The man stares intently at his computer, his fingers continuously typing on the keyboard.

【实验2（按照Runway Gen3撰写提示词的要求，附加条件较多）】：[50mm lens]: The shot opens on a white cup, sitting still on a polished desk.Gradually, the camera pans to the right, revealing a businessman engrossed in his work.The man’s gaze is fixed on the computer screen, his fingers a blur as they type steadily on the keyboard, creating an atmosphere of focused determination.

【实验3（按照Runway Gen3撰写提示词的要求，附加条件较少）】：[50mm lens]: The shot opens on a white cup.Gradually, the camera pans to the right, revealing a businessman engrossed in his work.

‍‍

可见三次测试中视频整体质量效果都不一样。实验1里的视频完全没按照提示词的要求进行运镜效果；实验2里我们按照官网的要求改写了提示词，Runway Gen3执行了运镜动作但镜头呈现的画面有误，不符合提示词里“镜头从一个白色杯子开始”的需求；实验3里我们再次改写了提示词，由于官网内提供的提示词案例较短，附加条件较少，所以我们按照案例的写法又做多一次实验，发现效果更佳，完全符合提示词要求。

最终，我们还是采用了实验1的示例。主要原因在于测试的公平性，应都使用同样的提示词进行测试，也考虑到客户在生成视频的过程中不会一直严格遵循模型对撰写提示词的要求，该测试能评估该模型的通用性及文本理解能力，全面地考核文生视频模型的综合性与视频生成能力。

# 测评邀请

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题：文生视频测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、文生视频模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247554601&idx=1&sn=3d6486ef3d5c83a4c6511591def84d82

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

语音合成大模型测评基准（方案）发布

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉