文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

文摘科技 2024-10-21 12:02 浙江

‌文生图大模型目前正处于快速发展阶段，并已在多个领域进行了广泛应用，例如DALL-E、Midjourney等。这一革命性技术使得从文本生成视觉内容的过程变得更加便捷与高效，推动了艺术创作、内容制作以及教育等多个领域的创新。

SuperCLUE团队已于2024年6月12日发布首期中文文生图测评基准首期榜单，受到了中文技术社区的广泛关注和反馈。为了进一步全面的实时跟进国内外文生图大模型的阶段性进展，我们于近期正式发布了9月中文原生文生图测评基准SuperCLUE-Image报告。

9月测评摘要

测评要点1：DALL-E 3在综合能力上领跑

DALL-E 3（72.91分）综合能力表现出色，领跑SuperCLUE-Image基准。较国内最好模型高1.39分。

测评要点2：国内文生图大模型有较大进展，其中文字创作和中华文化和元素任务上，有一定领先优势。

国内文生图大模型在总体能力上进展较大。BlueLM-Art、混元文生图和豆包文生图均有65分以上的优异表现。其中在文字创作任务上，BlueLM-Art取得75.57分，有较大领先优势；在中华文化和元素任务上，豆包文生图则取得82.97分有超过DALL-E 3的表现。

测评要点3：国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升

通过测评数据可以发现，海外文生图模型DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上，如图像质量、图文一致性和内容创造性方面有一定领先优势。国内文生图模型则仍有一定提升空间。

# 榜单概览

榜单地址：www.superclueai.com

详情请查看下方#正文。

# SuperCLUE-Image介绍

SuperCLUE-Image是中文文生图大模型综合性测评基准，旨在为中文领域提供一个文生图大模型多维度能力评估参考。

测评体系

SuperCLUE-Image基准包括6个一级维度和34个二级维度，以开放式问题形式对文生图大模型进行评估。

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1）测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt；针对每一个维度构建专用的测评集。

2）评分方法

对于每个任务类型都有一个或多个评价维度，每个维度按照评分标准分为5级，定义为1-5分。结合参考答案使用超级模型进行打分，模型回答的得分是对应各个维度得分的平均值。

3）评分标准

SuperCLUE-Image根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况，GPT-4o打分1-5分，综合各个标准的得分得到平均分。

详见下方#示例。

测评示例

示例任务：文字创作-广告与标识

提示词Prompt：一家中餐馆的传统风格招牌，文字内容为“老四川江湖菜”。

模型A生成图片：

超级模型（GPT-4o）裁判：

----逐项打分开始----

**内容完整性**：图像中的文字“老四川江湖菜”完整准确，符合用户的文本要求。

- 评分：5

**特征准确性**：招牌文字和周围灯笼装饰符合传统中餐馆的特征，但在川菜及地域文化特色的细微表达上可以有更多的细节和创意。

- 评分：4

**布局美观度**：文字排布合理，整体布局美观。但在视觉冲击力和传统元素的展现上还有进一步提升的空间。

- 评分：4

综上，本次测评综合得分为(5 + 4 + 4) / 3 = [[4.33]]

----逐项打分结束----

模型B生成图片：

超级模型（GPT-4o）裁判：

----逐项打分开始----

**内容完整性**：生成的图像文字内容与用户指定的"老四川江湖菜"不符，文字内容出现较大偏差。

- 评分：2

**特征准确性**：从传统中餐馆的风格来看，图像的设计符合但出现了无关的文字，整体文字特征吻合，但内容错误严重。

- 评分：2

**布局美观度**：

- 图像整体的文字布局美观且符合传统中餐馆的风格，尽管内容不对，但视觉效果和布局表现尚可。

- 评分：3

综上，本次测评综合得分为(2 + 3 + 4) / 3 = [[2.67]]。

----逐项打分结束----

# 参评模型

为综合衡量当前国内外文生图大模型发展水平，本次测评选取了4个海外模型和10个国内代表性文生图模型。

# 测评结果

总榜单

图像质量榜单

图文一致性榜单

复杂度适应性榜单

内容创造榜单

文字创作榜单

中华文化与元素榜单

# 模型对比示例

示例1：文字创作【非平面文字】

提示词Prompt：一个浅黄色的陶罐上，用行书字体写着“修身养性”。

模型回答比较：

BlueLM-Art（得分：4.67分）：

混元文生图（得分：4分）：

豆包文生图（得分：2.67分）：

DALL·E 3（得分：2分）：

文心一格（得分：2分）：

示例2：图像质量【光影】

提示词Prompt：光线从窗户斜入的室内照，突出物体的边缘和层次。

模型回答比较：

DALL·E 3（得分：5分）：

Flux.1 Pro（得分：5分）：

文心一格（得分：4.75分）：

豆包文生图（得分：4分）：

Cogview3-Plus（得分：3.5分）：

示例3：图文一致性【文本遵循】

提示词Prompt：繁星下的露营地，有帐篷和篝火

模型回答比较：

Flux.1 Pro（得分：4分）：

混元文生图（得分：4分）：

豆包文生图（得分：3.5分）：

Wanx-v1（得分：3分）：

示例4：复杂度适应性【复杂生成】

提示词Prompt：一位科学家在实验室中研究新型能源，试管和仪器组成了他前沿科技的工作台。

模型回答比较：

DALL·E 3（得分：4.67分）：

BlueLM-Art（得分：4分）：

豆包文生图（得分：4分）：

Midjourney（得分：4分）：

星火绘图（得分：2.33分）：

示例5：内容创造【组合元素】

提示词Prompt：结合深海探险与古代海洋神话的元素。

模型回答比较：

Flux.1 Pro（得分：4分）：

BlueLM-Art（得分：4分）：

天工AI（得分：2分）：

示例6：中华文化与元素【民族风情】

提示词Prompt：描绘一个穿着传统藏族服饰、脸晒得通红的小男孩。

模型回答比较：

豆包文生图（得分：4.5分）：

天工AI（得分：3.5分）：

美图AI（得分：2.5分）：

Cogview3-Plus（得分：2.5分）：

示例7：中华文化与元素【传统技艺】

提示词Prompt：一个红衣女子坐在舞台上演奏古筝。

模型回答比较：

Midjourney（得分：4.5分）：

BlueLM-Art（得分：4分）：

Cogview3-Plus（得分：3分）：

# 人类一致性评估

为确保大模型自动化测评的科学性，我们对GPT-4o在文生图评价任务中的人类一致性进行了评估。

具体操作方法为：抽取4个模型，按任务类型进行分层抽样，对各模型对应的120个任务输出答案的质量进行人工评价，并与GPT-4o的评分进行比较，考察GPT-4o评价与真实情况的吻合程度，给出相应的评分（优秀/良好/及格/不及格）。

最终得到的人类一致性评估结果（合格率）如下：

模型1：98.99%
模型2：94.95%
模型3：94.50%
模型4：94.28%

平均合格率为：95.68%。因为本次自动化评价有较高可靠性。

# 测评分析及结论

1.文生图综合能力，DALL-E 3保持领先。

由测评结果可知，DALL-E 3（72.91分）综合能力表现出色，领跑SuperCLUE-Image基准。较国内最好模型高1.39分。

2.国内文生图大模型有较大进展，其中文字创作和中华文化和元素任务上，有一定领先优势。

国内文生图大模型在总体能力上相较于6月份有较大进展。BlueLM-Art、混元文生图和豆包文生图均有65分以上的表现。其中，在文字创作任务上，BlueLM-Art取得75.57分，有较大领先优势；在中华文化和元素任务上，豆包文生图取得82.97分有超过DALL-E 3的表现。

3.国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升

通过测评数据可以发现，DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上，如图像质量、图文一致性和内容创造性方面表现优异。国内文生图模型需要进一步提升基础核心文生图能力。

# 年度报告征集

为了更全面综合评估中文文生图大模型的阶段性进展，SuperCLUE团队即将发布《2024年度中文多模态大模型进展评估报告》。现邀请各厂商参与文生图基准年度测评，并征集优秀文生图大模型和优秀应用案例。

年度报告发布时间：2024年12月18日。

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题：文生图年度测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、文生图模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247547394&idx=1&sn=b8e38c5a3100f064fd5ef06e41a04dd7

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉