中大模型文生视频生成(SuperCLUE-T2V)测评基准发布,旨在深入评估模型的文生视频生成能力。该测评不仅关注模型的视频画质,还重点考察其文本理解与遵循能力。测评内容涵盖了视频画质、外观遵循能力、动态遵循能力等基础与技术性的考核,以及不同应用场景下的视频质量,全面检验模型在不同应用场景任务中的表现。
测评方案见:文生视频大模型「新版」测评基准(方案)发布。本次我们测评了国内外10个代表性大模型的文生视频生成能力,以下为详细测评报告。
文生视频测评摘要
测评要点1:PixVerse V3在文生视频生成能力上稍微领先PixVerse V3取得了82.02分,稍微领先于其它文生视频模型。其中基础与技术和应用场景两方面的得分都名列前茅,展现出较强的场景适配性和落地能力。
测评要点2:在中文任务和场景上,国产文生视频大模型具有相对优势榜单前五有四个国内模型,其中PixVerse V3和海螺视频分别以总分82.02分和81.50分并列第一;可灵AI 1.5以80.92的总分排名第二;通义万相以78.19的总分排名第三。测评模型中国内七个模型的平均分为77.71分,国外三个模型的平均分为76.54分,国内模型比国外模型平均高了1.17分,表明目前国内文生视频模型暂时领先于国外文生视频模型。测评要点3:国内文生视频模型的动态遵循能力仍需提升国内模型在视频画质里的平均分高达88.74分,在外观遵循能力方面平均分也得了72.47分,在各应用场景方面平均分也位于75-85分左右;但在动态遵循能力方面国内文生视频模型的得分都低于70 分,平均得分61.40分,与其他测评任务相比平均相差了19.61分,仍有较大的进步空间。
测评要点4:Runway Gen3测评排名得分情况与预期的差别Runway Gen3被誉为现今国外乃至全球发展较好的文生视频模型之一,但在这次的测评里它的表现并不理想。在经过我们的研究与实验结果得出,Runway Gen3对于提示词撰写的要求较高,文本的长度也一定的影响了它视频生成的能力。为了保持测评的公平性,我们统一调用了同样的提示词,并不遵循任何模型在官网上对提示词的要求,保持绝对的公平性与专业性。
# 榜单概览
榜单地址:www.superclueai.com
#SuperCLUE-T2V介绍
SuperCLUE-T2V是中文文生视频模型综合性测评集准,旨在为中文领域提供一个文生视频模型视频生成能力评估参考。该基准包括基础与技术以及应用场景两大方向,涵盖7个一级维度与27个二级维度。SuperCLUE-T2V通过一系列详尽的评估指标和测试数据集,全面衡量中文视频生成模型在生成质量、多样性及一致性等方面的性能。其设计融合了国际基准的架构及针对中文环境的特殊需求,旨在促进中文视频生成领域的研究、开发与技术创新。参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。但现阶段,由于超级模型的能力有限,其对于部分评判难度较高的任务难以胜任,因此我们采取了超级模型评估+人工评估的测评方法。具体而言,我们将七个评判难度较高的二级任务通过人工进行评估,这七个任务包括:数量精准性、空间关系、主体交互准确性、动作、动漫、广告以及游戏。中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。Gemini-1.5-Pro与测评人员将根据预先定义的提示词(prompt)进行评估。这些提示词涵盖了评价流程、评价标准、打分规则、以及输出格式要求,确保评分的一致性和公正性。
SuperCLUE-T2V根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况,Gemini-1.5-Pro打分1-10分,综合各个标准的得分得到平均分。
SuperCLUE-T2V文生视频测评体系包括基础与技术大类的测评指标以及应用场景,其中测评指标汇总如下:提示词Prompt:一只小猫正在玩毛线球,它伸出爪子拨弄毛线球,动作轻盈灵活。
----逐项打分开始----
我的思考与答案:视频中展示了一只小猫在玩毛线球,它用爪子拨弄毛线球,符合提示词的要求。
问题及改进的反馈意见:小猫的动作有些僵硬,不够流畅自然。毛线球的运动轨迹也略显生硬,可以改进毛线球的物理模拟,使其运动更符合现实。- 动作准确性:小猫的动作与提示词描述基本一致,它确实在用爪子拨弄毛线球。得分:8分- 动作自然性:小猫的动作略显僵硬,不够流畅自然,毛线球的运动轨迹也略显生硬。得分:6分- 综合以上,该模型的综合得分(平均分)为(8 + 6) / 2 = [[7.00]]----逐项打分结束----
# 参评模型
为综合衡量当前国内外大模型在文生视频能力的发展水平,本次测评选取了3个海外代表模型和7个国内模型。基础与技术榜单
# 模型对比示例
提示词Prompt:「海边有两个小孩在堆沙堡,还有一个成年男子树下乘凉。」英文提示词:「 At the beach, two children are building a sandcastle, while an adult man relaxes in the shade under a tree. 」模型回答比较(满分10分):
提示词:「朦胧的薄雾笼罩着山谷,远山如黛,近水含烟。」提示词:「夜晚的海滩上,一位渔夫穿着破旧的工作服,在月光下专注地修补渔网。」英文提示词:「 On the beach at night, a fisherman in worn-out work clothes focuses intently on mending his fishing net under the moonlight. 」【Luma DreamMachine1.6】:10分:提示词:「花瓶里插着五朵玫瑰花,其中三朵是红色的,两朵是白色的。花瓶旁边放着两本书。」【Luma】:9.8分:
【PixVerse V3】:8分:
提示词:「一片辽阔的草原上,曹操身披铠甲,手持长槊,骑在战马上,目视前方的大河,河水奔腾不息,铠甲在阳光下闪烁着寒光。」为确保大模型自动化测评的科学性,我们对Gemini-1.5-Pro在文生视频评价任务中的人类一致性进行了评估。具体操作方法为:抽取5个模型,每个模型让一个人进行独立打分(十分制),并从20个自动化评估的二级任务内随机抽取一题,每人共评20题,再与Gemini-1.5-Pro的评分进行比较。将每题的人工打分减去模型打分,再求平均分差数。将5个模型的平均分差数求和取总平均分差作为人类一致性评估的评估结果。# 测评分析及结论
1.PixVerse V3的综合表现较好,总分最高。PixVerse V3的综合得分都普遍较高,尤其在视频画质(95.20分)的表现极其突出,在应用场景方面的得分也都在80分以上,显示出其在基础技术方面与多种应用场景中的强大能力,最后便以82.20分排名国内第一。由MiniMax开发的海螺视频在日常生活(90.40分)的表现也较为出色,以81.50分并列国内第一,表现稳定可靠。可灵AI 1.5由快手开发,以80.92分排名国内第二,表现均衡且适应性强。
2.国内文生视频模型在外观与动态遵循能力上尚有一定的提升空间,在视频画质方面表现不俗。国内文生视频模型在外观与动态遵循能力方面,还有一定的提升空间。在视频画质方面有一定的落地优势。国内模型在视频画质里的平均分高达88.74分,在外观遵循能力方面平均分也得了72.47分,还有改进的地方;但在动态遵循能力方面国内文生视频模型的得分都低于70 分,平均得分61.40分,与其他测评任务相比平均相差了19.61分,国内共有三个模型低于60分,仍有较大的进步空间。国外最好模型在外观遵循能力和日常生活上的表现较为出色;但是国内最好模型在视频画质和影视方面有表现得较优异,在中国文化场景、应用和动态遵循能力方面也不俗。# Runway Gen3的得分状况专业性分析
1.Runway Gen3在视频画质的得分不错,但在外观与动态遵循能力方面仍有较大的进步空间
Runway Gen3在视频画质方面的得分比国外最好模型的得分要高,甚至在日常生活里的得分也是最高的;但是在外观遵循能力与动态遵循能力方面的得分并不理想,在其他应用场景里由于指令遵循的要求较多,难度较高,所以也获得了较低的分数。
2.使用统一的提示词生成视频
我们进行测试之前也调查了有关不同模型对于提示词的要求也不同;而为了测试的公平性,我们在设计提示词的过程中都不会参照任何模型对于提示词的要求,主要考核了模型的通用性与文本理解能力,这也因此影响到了这次的测试模型的排名。关于Runway Gen3对提示词的要求,具体可参照官网https://help.runwayml.com/hc/en-us/articles/30586818553107-Gen-3-Alpha-Prompting-GuideRunway Gen3撰写提示词具体要求:
[camera movement]: [establishing scene]. [additional details].
[运镜]: [场景描述]. [附加条件]
我们也对此进行了深入的研究,提供了相同意思但不同语句编排的提示词,具体示例如下:
【中文提示词】:镜头以一个白色的杯子开始,随后镜头缓缓向右移动,转而聚焦到一个办公男人身上,男人眼睛一直盯着电脑,手不停地敲打键盘。
【实验1】:The shot begins with a white cup, then slowly pans to the right, focusing on a businessman at his desk. The man stares intently at his computer, his fingers continuously typing on the keyboard.
【实验2(按照Runway Gen3撰写提示词的要求,附加条件较多)】:[50mm lens]: The shot opens on a white cup, sitting still on a polished desk.Gradually, the camera pans to the right, revealing a businessman engrossed in his work.The man’s gaze is fixed on the computer screen, his fingers a blur as they type steadily on the keyboard, creating an atmosphere of focused determination.
【实验3(按照Runway Gen3撰写提示词的要求,附加条件较少)】:[50mm lens]: The shot opens on a white cup.Gradually, the camera pans to the right, revealing a businessman engrossed in his work.
可见三次测试中视频整体质量效果都不一样。实验1里的视频完全没按照提示词的要求进行运镜效果;实验2里我们按照官网的要求改写了提示词,Runway Gen3执行了运镜动作但镜头呈现的画面有误,不符合提示词里“镜头从一个白色杯子开始”的需求;实验3里我们再次改写了提示词,由于官网内提供的提示词案例较短,附加条件较少,所以我们按照案例的写法又做多一次实验,发现效果更佳,完全符合提示词要求。
最终,我们还是采用了实验1的示例。主要原因在于测试的公平性,应都使用同样的提示词进行测试,也考虑到客户在生成视频的过程中不会一直严格遵循模型对撰写提示词的要求,该测试能评估该模型的通用性及文本理解能力,全面地考核文生视频模型的综合性与视频生成能力。
# 测评邀请
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:文生视频测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、文生视频模型类型及简介、联系人和所属部门、联系方式
# 联系我们
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark