9月测评摘要
# 榜单概览
# SuperCLUE-Image介绍
1)测评集构建
2)评分方法
3)评分标准
示例任务:文字创作-广告与标识
提示词Prompt:一家中餐馆的传统风格招牌,文字内容为“老四川江湖菜”。
模型A生成图片:
模型B生成图片:
为综合衡量当前国内外文生图大模型发展水平,本次测评选取了4个海外模型和10个国内代表性文生图模型。
内容创造榜单
文字创作榜单
# 模型对比示例
提示词Prompt:一个浅黄色的陶罐上,用行书字体写着“修身养性”。
模型回答比较:
BlueLM-Art(得分:4.67分):
混元文生图(得分:4分):
豆包文生图(得分:2.67分):
DALL·E 3(得分:2分):
文心一格(得分:2分):
提示词Prompt:光线从窗户斜入的室内照,突出物体的边缘和层次。
模型回答比较:
DALL·E 3(得分:5分):
Flux.1 Pro(得分:5分):
文心一格(得分:4.75分):
豆包文生图(得分:4分):
Cogview3-Plus(得分:3.5分):
提示词Prompt:繁星下的露营地,有帐篷和篝火
模型回答比较:
Flux.1 Pro(得分:4分):
混元文生图(得分:4分):
豆包文生图(得分:3.5分):
Wanx-v1(得分:3分):
提示词Prompt:一位科学家在实验室中研究新型能源,试管和仪器组成了他前沿科技的工作台。
模型回答比较:
DALL·E 3(得分:4.67分):
BlueLM-Art(得分:4分):
豆包文生图(得分:4分):
Midjourney(得分:4分):
星火绘图(得分:2.33分):
提示词Prompt:结合深海探险与古代海洋神话的元素。
模型回答比较:
Flux.1 Pro(得分:4分):
BlueLM-Art(得分:4分):
天工AI(得分:2分):
提示词Prompt:描绘一个穿着传统藏族服饰、脸晒得通红的小男孩。
模型回答比较:
豆包文生图(得分:4.5分):
天工AI(得分:3.5分):
美图AI(得分:2.5分):
Cogview3-Plus(得分:2.5分):
提示词Prompt:一个红衣女子坐在舞台上演奏古筝。
模型回答比较:
Midjourney(得分:4.5分):
BlueLM-Art(得分:4分):
Cogview3-Plus(得分:3分):
# 人类一致性评估
模型1:98.99%
模型2:94.95%
模型3:94.50%
模型4:94.28%
# 测评分析及结论
由测评结果可知,DALL-E 3(72.91分)综合能力表现出色,领跑SuperCLUE-Image基准。较国内最好模型高1.39分。
3.国内文生图大模型在图像质量、图文一致性和内容创造性方面仍需提升
通过测评数据可以发现,DALL-E 3、Midjouney和Flux.1 Pro在文生图基础能力上,如图像质量、图文一致性和内容创造性方面表现优异。国内文生图模型需要进一步提升基础核心文生图能力。
为了更全面综合评估中文文生图大模型的阶段性进展,SuperCLUE团队即将发布《2024年度中文多模态大模型进展评估报告》。现邀请各厂商参与文生图基准年度测评,并征集优秀文生图大模型和优秀应用案例。
年度报告发布时间:2024年12月18日。
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:文生图年度测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、文生图模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark