长长长文本大模型中文基准测评结果出炉！得分均未超过70分

文摘科技 2024-09-11 14:12 浙江

2024年9月11日，中文原生长文本测评基准SuperCLUE-Long基准榜单发布。

长文本测评摘要

测评要点1：GPT-4o处于领先地位，但仍有较大提升空间

GPT-4o-2024-05-13取得68.39分，领跑长文本基准。其中解析任务有70+分的表现。但摘要任务和创作任务上低于70分，仍有较大的提升空间。可见，当前长文本任务对大模型仍是较大挑战。

测评要点2：国内大模型在长文本能力上正在不断接近全球领先水平

国内大模型Moonshot(kimi)取得66.79分，暂列国内第一，稍落后GPT-4o-2024-05-13有1.6分。豆包、Baichuan4、360gpt2-pro-360k、通义千问2.5、文心一言4 turbo仅随其后，均有超过64分的表现。

测评要点3：不同大模型在不同维度上各有优势

通过测评数据可以发现，不同模型擅长的二级维度任务不同。例如，豆包在长文本的数理分析任务中表现最好，Moonshot(kimi)擅长全文摘要和线索摘要，360gpt2-pro-360k则在内容创作助理中表现最好。

测评要点4：部分大模型会随长度提升而出现性能损失

不同模型在不同长度区间的稳定性有较大差异。GPT-4o-2024-05-13和Moonshot(kimi)在不同长度文本上表现稳定，而部分模型则存在较大波动，性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。

# 榜单概览

榜单地址：www.superclueai.com

详情请查看下方#正文。

# SuperCLUE-Long介绍

SuperCLUE-Long是中文大模型原生长文本能力测评基准，旨在为中文领域提供一个长文本大模型多维度能力评估参考。

测评体系

SuperCLUE-Long基准包括3个一级维度12个二级维度，以开放式问题形式对长文本大模型进行评估。

为了更细致、更全面地展现长文本大模型的能力水平，结合国内外长文本大模型发展的实际情况，我们在每一个任务类型中均设置了不同文本长度的题目，长度区间设置为4K、8K、16K、64K、128K。

场景设置

本次测评将双重评估长文本大模型的系统功能与实际应用场景应对能力，旨在全面衡量模型解析长文本并正确响应用户需求的综合能力。

文本类型包括新闻资讯、公众文章、学术论文、法律文书、保险条例、医疗报告、财经报告、教学材料、会议记录、小说、说明文件等；任务类型涵盖总结摘要、信息解读、对比问答、数理分析、文本创作等；答案形式包括文字和表格等。全面反映用户在长文本大模型使用中的各种问题。

评价标准

符合基本要求：回答应遵循用户意图，满足用户提出问题的基本目的和需求，试图对问题进行恰当的回应。
语言与逻辑连贯性：语言表达是否流畅、逻辑是否清晰、各个部分是否有机组合在一起、层次是否分明。
信息提炼度：答案所提供的信息是否完全符合文本内容。是否存在对文本信息的误用，或者添加不属于文本的信息。
推理链条完整度：在进行全文范围内的逻辑链条梳理过程中是否完整地、准确的涵盖了全部相关信息。
知识正确：对于文章中的知识点与内容信息的解读要正确。
数理分析能力：对于数学问题、表格信息、公式解析等问题是否具备较好的响应功能。
多语言响应能力：模型中英文互译的综合能力。
创造性：回答是否具有创新性或独特性，是否提供了新颖的见解或解决方法。
角色扮演与AI助手：充分理解文章内容，进而模拟其中人物的表达方式与思维模型进行问答、续写等人物或充分学习文章内容进而充当AI助手的综合能力。

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1）测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt；针对每一个维度构建专用的测评集。

2）评分过程

1.获得<中文prompt>-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分；

结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得每一个维度的评估结果。

3）人类一致性分析

对自动化测评结果进行评估，与人类评价的一致性对比，并报告一致性表现。

详见下方#示例。

测评示例

文件：普瑞巴林胶囊说明书.pdf

Prompt：根据输入的普瑞巴林胶囊说明书内容，总结说明不良反应及其处理措施。

模型答案：

普瑞巴林胶囊是一种用于治疗带状疱疹后神经痛、纤维肌痛以及成人部分性癫痫发作的药物。尽管其疗效显著，但在使用过程中可能会出现各种不良反应。

## 常见不良反应

（文章篇幅有限，省略具体内容）

## 罕见不良反应

（文章篇幅有限，省略具体内容）

## 其他重要不良反应及处理措施

（文章篇幅有限，省略具体内容）

普瑞巴林胶囊在治疗带状疱疹后神经痛、纤维肌痛以及成人部分性癫痫发作中具有显著疗效，但也可能引起多种不良反应。患者应在医师或药师指导下使用，定期监测身体状况，并在出现不良反应时及时采取相应的处理措施。

超级模型（gpt-4o）裁判：

----逐项打分开始----

1. 基于标准1的<符合基本要求>；

回答符合基本要求，针对不良反应及其处理措施进行了详细说明，满足了用户的需求；基于标准1的得分为5分。

2. 基于标准2的<语言与逻辑连贯性>；

回答语言流畅且逻辑清晰，内容结构合理，各部分的衔接自然；基于标准2的得分为5分。

3. 基于标准3的<创造性>；

回答缺乏独特性和创新性，没有提供新的见解或建议，基本上是对文档内容的简单重述；基于标准3的得分为3分。

综合以上，AI助手的回答的综合得分（平均分）为[[4.33]]

----逐项打分结束----

# 参评模型

为综合衡量当前国内外长文本大模型发展水平，本次测评选取了2个海外大模型和8个国内代表性大模型。

# 测评结果

总榜单

长文摘要榜单

长文解析榜单

创作任务榜单

为更好的对比国内外代表性大模型的长文本能力，我们形成了长文本基准雷达能力分布图。

# 模型对比案例

维度一：摘要

案例1：摘要-线索摘要

文件：边城.pdf

提示词：「请概括这篇小说中老船夫的生活与情感，字数不超过500字。」

高分模型答案（GPT-4o）：

小说中的老船夫是一个守护渡船五十年的老人，他的生活简单而辛劳，与孙女翠翠相依为命。老船夫为人忠厚正直，对孙女怀有深厚的爱与关怀。他坚持不接受渡客的酬劳，宁愿用自己的劳动换取心安理得。他对生活的态度淳朴而执着，为了翠翠的未来尽心尽力，希望她能找到一个可靠的归宿。

老船夫年轻时也曾经历过情感的波折，女儿的悲剧让他更加珍惜和保护翠翠。面对翠翠的成长，他既有欣慰也有担忧，甚至在翠翠的婚事上操碎了心。尽管他努力为翠翠寻找合适的对象，但因为种种误会和不幸，最终未能如愿。

老船夫对生活和人性的理解深刻，他相信命运和天意，尽管自己年老体衰，却始终保持对生活的热情和对家人的责任心。他的去世让翠翠陷入悲痛，但他的精神和教诲依然深深影响着她。小说通过老船夫的生活和情感，展现了一个普通劳动者的坚韧和善良，同时也反映了人们在面对命运时的无奈与坚韧。

评分：【4.25分】

低分模型答案：

老船夫过着简单的生活，一生在碧溪岨撑渡船，已经干了五十年。他孤身一人撑船，唯一的亲人就是外孙女翠翠。翠翠从小被他抚养长大，二人非常亲切。

评分：【1.75分】

维度二：解析

案例2：解析-全文信息解读

文件：浙江省***投资集团股份有限公司-2024 年第一季度报告.pdf

提示词：「请对浙江省***投资集团股份有限公司2024年第一季度财务报告进行详细分析，字数不限。」

高分模型答案（Moonshot-kimi）：

浙江省***投资集团股份有限公司的2024年第一季度财务报告提供了公司在该季度的财务状况和经营成果的详细概览。以下是对该报告的详细分析：

### 1. 财务概览

**营业收入**：1,172,645,832.59元，同比增长12.10%。

**归属于上市公司股东的净利润**：172,922,853.99元，同比增长42.88%。

**基本每股收益**：0.0719元，同比增长23.54%。

**加权平均净资产收益率**：1.42%，较上年同期增加了0.03个百分点。

### 2. 资产负债情况

### 3. 股东情况

### 4. 非经常性损益

### 5. 经营活动产生的现金流量

### 6. 投资活动产生的现金流量

### 7. 筹资活动产生的现金流量

### 8. 综合分析

### 9. 风险与机遇

（篇幅有限，省略以上具体内容）

### 10. 结论

浙江***2024年第一季度的财务报告显示公司在营业收入和净利润方面实现了稳健增长，资产和负债结构保持稳定，现金流管理良好。然而，公司在投资活动上的大量支出和负债水平的上升需要进一步关注，以确保长期的财务健康和可持续发展。

评分：【4分】

低分模型答案：

浙江省***投资集团股份有限公司2024年第一季度报告分析:

一、业务状况分析

公司主营新能源项目,如风力发电和水力发电等。报告期内,受风电和水电项目发电量较上年同期增长的影响,公司实现盈利状况良好。

二、财务状况分析

公司长期投资和固定资产占比较大,反映出公司长期投资能源项目的特点。

三、未来发展前景

随着国家大力支持新能源产业,公司将重点发展风电、光伏发电等领域。同时会加大自动化程度,降低运行成本。

评分：【2分】

# 人类一致性评估

为确保大模型自动化测评的科学性，我们对GPT-4o在长文本评价任务中的人类一致性进行了评估。

具体操作方法为：抽取4个模型，按任务类型进行分层抽样，对各模型对应的60个任务输出答案的质量进行人工评价，并与GPT-4o的评分进行比较，考察GPT-4o评价与真实情况的吻合程度，给出相应的评分（优秀/良好/及格/不及格）。

最终得到的人类一致性评估结果（合格率）如下：

# 测评分析及结论

1.长文本综合能力，GPT-4o领先国内模型，但领先幅度不大。

由测评结果可知，GPT-4o（68.39分）表现出色，领跑SuperCLUE-Long基准。国内最好模型Moonshot(kimi)取得66.79分，略低于GPT-4o有1.6分。

2.长文本能力总体水平差距不大，其中在解析任务方面，模型间的分差更大。

从对比数据分析可知，GPT-4o和Moonshot(kimi)稳居三大任务的前两名，其中在创作任务中，Moonshot(kimi)的得分高于GPT-4o。而在解析任务中，GPT-4o是得分唯一超过70分的模型。创作任务中分数分布比较均匀，摘要任务中分数变化幅度有所提升，而在解析任务中，最高分和最低分之间有明显差距，任务难度系数更高。

3.部分模型会随着长度增加出现性能损失

部分模型（如GPT-4o、Kimi）在不同长度文本上表现稳定，而其他模型（如GLM-4、Claude-instant-100k）则存在较大波动，性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。

4.不同模型擅长的长文本任务类别不同，呈现多样化。

# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

# 邮件申请

邮件标题：长文本测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、长文本大模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247535611&idx=1&sn=c612a051cce7bdd95f1d6ebce14d2cfd

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉