文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

文摘科技 2024-06-12 21:10 浙江

文生图技术已在人工智能领域取得重要进展，使计算机能够依据文本描述生成图像。特别是在中文场景中，此技术不仅改变了内容创作方式，还在广告和营销、设计和创意、艺术和娱乐等行业大展拳脚。中文的复杂性给技术的发展带来了挑战。

目前，国际上如DALL-E 3、Imagen2、Midjourney和Stable Diffusion等模型展示了出色的图像生成能力。尽管国内模型如百度文心一言已在中文文生图领域做出尝试，但理解和生成具有中文文化特色的复杂图像依然具有挑战。

为此，我们推出了SuperCLUE-Image中文原生文生图测评基准。它专为中文设计，提供全面公正的评估框架，覆盖生成质量、多样性和文本一致性等方面的表现，以推动技术的标准化和国际化，加速其在更多实际应用场景的应用。

SuperCLUE排行榜网站：www.superclueai.com

# SuperCLUE-Image

1. 特点

（1）中文原生文生图能力评估

立足于为通用人工智能时代提供中文世界测评基础设施，文字输入或提示词（prompt）都是中文原生的，不是英文或其翻译版本；并充分体现中文世界的场景和特点，比如识别并融入我国的习俗和文化元素，比如根据中国文化元素生成具有中国风的图片，不仅展现了图像美学，也蕴含了丰富的文化内涵。

（2）场景还原能力评估

该体系深入探讨了大型模型利用图片还原场景的能力，包括评估模型是否能根据用户提供的提示词生成符合预期的图片。通过构图、光影、色彩、细节处理等方面评价大型模型生成图片的质量，同时对其生成的图片进行内容创造能力的评估。

（3）应用潜力评估

本次评估基准涉及了文化艺术、人物肖像、商业广告以及自然景观等众多主题，突显了它在艺术创作和商业应用领域的广泛应用前景。通过这些测试，评估模型在理解和生成各种复杂场景下图像的能力，从而体现其在捕捉细节精确性和文化深度方面的卓越表现，证明了其在多种场景中的实用性和创新性。

2. 任务方向与评价体系

测评体系分为任务方向与评分标准。

2.1 任务方向

文生图关键能力评估

a.图像质量：考察模型是否基于人类的美学标准，生成的图像是否符合视觉感知和普遍审美偏好，且不仅需要在技术上达标，还要在视觉和情感上与人类的审美共鸣。

b.图文一致性：考察模型生成的图像是否全面包括文本提到的信息，模型能否精确地理解文本中的字面意义。

c.内容创造：考察模型是否具备组合用户要求的元素创造用户需要的内容的能力。

d.复杂度适应性：评估模型在面对不同复杂度的文本描述时的适应能力和表现，包括简单描述和复杂描述的生成效果。

2.2 评价标准

2.3 测评及计分方式

整体测评流程包括：1.模型答案获取；2.评价获取；3.计算模型得分。

1）模型答案获取

通过单轮问答形式，使用API 调用方式来获取模型的答案。

2）评价获取

对于每个任务类型都有一个或多个评价维度，每个维度按照评分标准分为5级，定义为1-5分。结合参考答案使用超级模型进行打分，模型回答的得分是对应各个维度得分的平均值。例如“图片质量”中的“图片保真度之辨识难度”任务，设定四个评价打分维度：

a.满足基本需求：图片应当严格满足问题中的所有要点，图片中必须包括文字中描述的所有元素，以及准确完整地展现文字中描述的事件的过程，并且如果出现人物，人物的五官(包括眼睛、耳朵、鼻子、嘴巴)和身体躯干、四肢应当细节完整，清晰和正常人一样，符合现实世界的规律。如果图片中没有完整地展现文字中要求的所有内容，或者人物的五官或身体躯干、四肢出现细节扭曲，细节模糊以及出现明显不合理的情况，则本项评分必须打低分（不超过2分）。由于本项要求是图像质量的基础，所以如果本项的得分低于或等于2分，那么之后的每项评分最高只能评为3分；

b.基本图像属性辨识：考察图像的纹理，清晰度，颜色是否能被区分为真实或生成的图片；

c.环境与上下文一致性：图像中光照方向和阴影是否自然，以及它们是否与环境一致，物体的空间定位和相互关系是否符合真实世界的逻辑；

d.图像细节中的微妙不一致之处：如皮肤纹理、反光和微小物体的边缘。

3）计算模型得分

SC-Image评分规则说如下：

本次测评共设置单轮问答题目660道，最终通过计算各模型以上660个问题的答案均值，并通过归一化为百分制分数作为模型的测评得分。

4）测评过程示例（以GPT 4o为例）

任务类型：图片质量—图片保真度之辨识难度

a.问题

一个装满新鲜果蔬的农夫市场摊位。

b.答案

c.评价

我的思考与答案：

问题及改进的反馈意见：

总体而言，这是一张高质量的图片，并且很好地诠释了用户的问题。然而，有些元素显得不够精致，比如某些果蔬看起来略微人工。同时，没有人物出现在图像中，所以无法评价人物细节。

打分与评价开始：

1. 基于标准1的<满足基本需求>：这张图片包括了大量新鲜的果蔬，布满整个摊位，并且整体展示符合用户描述的“装满新鲜果蔬的农夫市场摊位”。除果蔬外，周围环境也与农夫市场一致。由于图像中没有涉及到人物，因此无法评价人物的细节。基于标准1的得分：4分。

2. 基于标准2的<基本图像属性辨识>：图像有良好的清晰度和色彩，再现了新鲜果蔬的自然色彩和纹理。但部分果蔬的质感显得有些人工。基于标准2的得分：4分。

3. 基于标准3的<环境与上下文一致性>：光照和阴影看起来自然且与环境一致，摊位和果蔬在空间关系上布局合理，符合现实情景。基于标准3的得分：5分。

4基于标准4的<图像细节中的微妙不一致之处>：整体细节表现良好，但仔细观察一些果蔬的边缘和表面可能会发现些许人工痕迹。肌理和微小物体的边缘处理中存在微小不一致。基于标准4的得分：4分。

综合以上，AI助手的回答的综合得分（平均分）为[[4.25]]

2.4 测评可靠性分析

为了验证本次测评标准的可靠性与数据集的实用性，在进行正式测评之前，我们选取了两个国内外具有代表性的模型进行了测评可靠性实验，具体实验过程如下：

我们从660道题目中针对2个模型，每个模型随机抽取了103道题目进行人工复审，审核内容及标准包括：

评价质量分为：优秀，良好，及格，不及格

完全不符合自己的判断：不及格（60以下），

基本符合自己的判断：及格（60或以上）或良好（75或以上）；

特别符合自己的判断，评价的特别好：优秀（85或以上）

最后统计及格的题目的比例。

最终各模型可靠性指标结果如下：

由此可见，本次测评的可靠性较高。

# 测评结果

总成绩榜单

任务大类榜单

图像质量榜单

图文一致性榜单

内容创造榜单

图片复杂度榜单

# 测评分析

1. 模型总体能力分析

在中文文生图总体能力上，国内外模型有一定差距。DALL·E 3以76.94的高分较为领先，是唯一得分超70分以的文生图模型；紧随其后的是百度的文心一格与vivo的BlueLM-Art，取得国内最好成绩；另外，智谱AI的Cogview3、字节跳动的豆包和昆仑万维的天工AI表现同样不俗，均有65分以上的表现。

2. 各任务得分分析

DALL·E 3在各项指标上均有优异表现，特别是在图片质量、效率和内容创造方面展现出很强的竞争力。文心一格和 BlueLM-Art（vivo）在国内模型中表现也较为出色，但在图文一致性方面有提升空间。其余模型在图文一致性与内容创作的能力均有很大的改进空间。

1）图像质量分析

在SC-Image图像质量测评中，DALL·E 3在光影、锐度、细节处理上展现出很高的图像生成水准。文心一格在构图、饱和度任务上表现不俗，BLueLM-Art在分辨率、细节处理和色彩准确性上同样展现出较高的能力。

2）图文一致性分析

在SC-Image图文一致性测评中，国内外模型均得分不高。相对来说，DALL·E 3在因果连贯性、时序连贯性、语境理解上较为领先。CogView3在歧义理解、文本遵循、因果和时序连贯性上同样展现了很高的水准。而BLueLM-Art在语境理解和中文场景的一致性上得分较高，表现不俗。

3）内容创造能力分析

在SC-Image内容创造测评中，DALL·E 3展现较大的领先优势，CogView3在风格创造上展现了很高的水准，而文心一格在组合元素创造性上表现不俗。

4）复杂度适应性分析

在SC-Image复杂度适应性测评中，BlueLM-Art和豆包对于复杂任务上有很好的生成能力，通义万相在简单任务上表现不俗。

# 示例

示例1：图像质量【色彩准确性】

问题：一张街头嘉年华的图像，面具装饰着亮银色羽毛和宝石般的红宝石色点彩。

模型回答比较：

DALL·E 3（得分：4.5分）：

文心一格（得分：4.5分）：

表现较弱模型（得分：1.25分）：

示例2：图文一致性【文本遵循】

问题：一个红色的苹果。

模型回答比较：

DALL·E 3（得分：4.67分）：

BlueLM-Art（得分：4.67分）：

表现较弱模型（得分：2.67分）：

示例3：内容创造【创造不可能】

问题：现实中不可能存在的景象图片，宝石生长的树木。

模型回答比较：

DALL·E 3（得分：4.67分）：

CogView3（得分：4分）：

表现较弱模型（得分：1.25分）：

示例4：复杂度适应性【简单生成】

问题：一张正方形和圆形来组合的机器人图像。

模型回答比较：

DALL·E 3（得分：4.67分）：

通义万相（得分：4.33分）：

表现较弱的模型（得分：3.25分）：

# 测评申请

一、测评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

二、申请测评地址

本次测评为首批大模型测评，后续会持续更新专用文生图大模型测评结果，欢迎文生图大模型研发机构申请报名。

邮件标题：SuperCLUE-Image文生图大模型测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE-Image

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247523351&idx=1&sn=0fa7909a4b54b76af80609aae02bfb4c

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉