长长长文本大模型中文基准测评结果出炉!得分均未超过70分

文摘   科技   2024-09-11 14:12   浙江  

2024年9月11日,中文原生长文本测评基准SuperCLUE-Long基准榜单发布。

长文本测评摘要


测评要点1:GPT-4o处于领先地位,但仍有较大提升空间

GPT-4o-2024-05-13取得68.39分,领跑长文本基准。其中解析任务有70+分的表现。但摘要任务和创作任务上低于70分,仍有较大的提升空间。可见,当前长文本任务对大模型仍是较大挑战。

测评要点2:国内大模型在长文本能力上正在不断接近全球领先水平

国内大模型Moonshot(kimi)取得66.79分,暂列国内第一,稍落后GPT-4o-2024-05-13有1.6分。豆包、Baichuan4、360gpt2-pro-360k、通义千问2.5、文心一言4 turbo仅随其后,均有超过64分的表现。

测评要点3:不同大模型在不同维度上各有优势

通过测评数据可以发现,不同模型擅长的二级维度任务不同。例如,豆包在长文本的数理分析任务中表现最好,Moonshot(kimi)擅长全文摘要和线索摘要,360gpt2-pro-360k则在内容创作助理中表现最好。

测评要点4:部分大模型会随长度提升而出现性能损失
不同模型在不同长度区间的稳定性有较大差异。GPT-4o-2024-05-13和Moonshot(kimi)在不同长度文本上表现稳定,而部分模型则存在较大波动,性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。



# 榜单概览

榜单地址:www.superclueai.com
详情请查看下方#正文。

# SuperCLUE-Long介绍

SuperCLUE-Long是中文大模型原生长文本能力测评基准,旨在为中文领域提供一个长文本大模型多维度能力评估参考。
测评体系
SuperCLUE-Long基准包括3个一级维度12个二级维度,以开放式问题形式对长文本大模型进行评估。
为了更细致、更全面地展现长文本大模型的能力水平,结合国内外长文本大模型发展的实际情况,我们在每一个任务类型中均设置了不同文本长度的题目,长度区间设置为4K、8K、16K、64K、128K。
场景设置
本次测评将双重评估长文本大模型的系统功能与实际应用场景应对能力,旨在全面衡量模型解析长文本并正确响应用户需求的综合能力。

文本类型包括新闻资讯、公众文章、学术论文、法律文书、保险条例、医疗报告、财经报告、教学材料、会议记录、小说、说明文件等;任务类型涵盖总结摘要、信息解读、对比问答、数理分析、文本创作等;答案形式包括文字和表格等。全面反映用户在长文本大模型使用中的各种问题。

评价标准

  • 符合基本要求:回答应遵循用户意图,满足用户提出问题的基本目的和需求,试图对问题进行恰当的回应。
  • 语言与逻辑连贯性:语言表达是否流畅、逻辑是否清晰、各个部分是否有机组合在一起、层次是否分明。
  • 信息提炼度:答案所提供的信息是否完全符合文本内容。是否存在对文本信息的误用,或者添加不属于文本的信息。
  • 推理链条完整度:在进行全文范围内的逻辑链条梳理过程中是否完整地、准确的涵盖了全部相关信息。

  • 知识正确:对于文章中的知识点与内容信息的解读要正确。

  • 数理分析能力:对于数学问题、表格信息、公式解析等问题是否具备较好的响应功能。

  • 多语言响应能力:模型中英文互译的综合能力。

  • 创造性:回答是否具有创新性或独特性,是否提供了新颖的见解或解决方法。

  • 角色扮演与AI助手:充分理解文章内容,进而模拟其中人物的表达方式与思维模型进行问答、续写等人物或充分学习文章内容进而充当AI助手的综合能力。


测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。

2)评分过程

1.获得<中文prompt>-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分;
结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本输入、文件送入超级模型进行评估,并获得每一个维度的评估结果。

3)人类一致性分析

对自动化测评结果进行评估,与人类评价的一致性对比,并报告一致性表现。

详见下方#示例。
测评示例

文件:普瑞巴林胶囊说明书.pdf

Prompt:根据输入的普瑞巴林胶囊说明书内容,总结说明不良反应及其处理措施。


模型答案:

普瑞巴林胶囊是一种用于治疗带状疱疹后神经痛、纤维肌痛以及成人部分性癫痫发作的药物。尽管其疗效显著,但在使用过程中可能会出现各种不良反应。
## 常见不良反应

(文章篇幅有限,省略具体内容)

## 罕见不良反应

(文章篇幅有限,省略具体内容)

## 其他重要不良反应及处理措施

(文章篇幅有限,省略具体内容)

普瑞巴林胶囊在治疗带状疱疹后神经痛、纤维肌痛以及成人部分性癫痫发作中具有显著疗效,但也可能引起多种不良反应。患者应在医师或药师指导下使用,定期监测身体状况,并在出现不良反应时及时采取相应的处理措施。

超级模型(gpt-4o)裁判:

----逐项打分开始----

1. 基于标准1的<符合基本要求>;

回答符合基本要求,针对不良反应及其处理措施进行了详细说明,满足了用户的需求;基于标准1的得分为5分。

2. 基于标准2的<语言与逻辑连贯性>;

回答语言流畅且逻辑清晰,内容结构合理,各部分的衔接自然;基于标准2的得分为5分。

3. 基于标准3的<创造性>;

回答缺乏独特性和创新性,没有提供新的见解或建议,基本上是对文档内容的简单重述;基于标准3的得分为3分。

综合以上,AI助手的回答的综合得分(平均分)为[[4.33]]
----逐项打分结束----


# 参评模型
为综合衡量当前国内外长文本大模型发展水平,本次测评选取了2个海外大模型和8个国内代表性大模型。
测评结果
总榜单

长文摘要榜单

长文解析榜单

创作任务榜单

为更好的对比国内外代表性大模型的长文本能力,我们形成了长文本基准雷达能力分布图。

# 模型对比案例

维度一:摘要

案例1:摘要-线索摘要

文件:边城.pdf

提示词:「请概括这篇小说中老船夫的生活与情感,字数不超过500字。

高分模型答案(GPT-4o):

小说中的老船夫是一个守护渡船五十年的老人,他的生活简单而辛劳,与孙女翠翠相依为命。老船夫为人忠厚正直,对孙女怀有深厚的爱与关怀。他坚持不接受渡客的酬劳,宁愿用自己的劳动换取心安理得。他对生活的态度淳朴而执着,为了翠翠的未来尽心尽力,希望她能找到一个可靠的归宿。

老船夫年轻时也曾经历过情感的波折,女儿的悲剧让他更加珍惜和保护翠翠。面对翠翠的成长,他既有欣慰也有担忧,甚至在翠翠的婚事上操碎了心。尽管他努力为翠翠寻找合适的对象,但因为种种误会和不幸,最终未能如愿。

老船夫对生活和人性的理解深刻,他相信命运和天意,尽管自己年老体衰,却始终保持对生活的热情和对家人的责任心。他的去世让翠翠陷入悲痛,但他的精神和教诲依然深深影响着她。小说通过老船夫的生活和情感,展现了一个普通劳动者的坚韧和善良,同时也反映了人们在面对命运时的无奈与坚韧。


评分:4.25分】

低分模型答案:

老船夫过着简单的生活,一生在碧溪岨撑渡船,已经干了五十年。他孤身一人撑船,唯一的亲人就是外孙女翠翠。翠翠从小被他抚养长大,二人非常亲切。

评分:【1.75分】

维度二:解析

案例2:解析-全文信息解读

文件:浙江省***投资集团股份有限公司-2024 年第一季度报告.pdf

提示词:「请对浙江省***投资集团股份有限公司2024年第一季度财务报告进行详细分析,字数不限。

高分模型答案(Moonshot-kimi):

浙江省***投资集团股份有限公司的2024年第一季度财务报告提供了公司在该季度的财务状况和经营成果的详细概览。以下是对该报告的详细分析:

### 1. 财务概览

**营业收入**:1,172,645,832.59元,同比增长12.10%。

**归属于上市公司股东的净利润**:172,922,853.99元,同比增长42.88%。

**基本每股收益**:0.0719元,同比增长23.54%。

**加权平均净资产收益率**:1.42%,较上年同期增加了0.03个百分点。

### 2. 资产负债情况

### 3. 股东情况

### 4. 非经常性损益

### 5. 经营活动产生的现金流量

### 6. 投资活动产生的现金流量

### 7. 筹资活动产生的现金流量

### 8. 综合分析

### 9. 风险与机遇

(篇幅有限,省略以上具体内容)

### 10. 结论

浙江***2024年第一季度的财务报告显示公司在营业收入和净利润方面实现了稳健增长,资产和负债结构保持稳定,现金流管理良好。然而,公司在投资活动上的大量支出和负债水平的上升需要进一步关注,以确保长期的财务健康和可持续发展。

评分:4分】

低分模型答案:

浙江省***投资集团股份有限公司2024年第一季度报告分析:

一、业务状况分析

公司主营新能源项目,如风力发电和水力发电等。报告期内,受风电和水电项目发电量较上年同期增长的影响,公司实现盈利状况良好。

二、财务状况分析 

公司长期投资和固定资产占比较大,反映出公司长期投资能源项目的特点。

三、未来发展前景

随着国家大力支持新能源产业,公司将重点发展风电、光伏发电等领域。同时会加大自动化程度,降低运行成本。


评分:【2分】

人类一致性评估

为确保大模型自动化测评的科学性,我们对GPT-4o在长文本评价任务中的人类一致性进行了评估。
具体操作方法为:抽取4个模型,按任务类型进行分层抽样,对各模型对应的60个任务输出答案的质量进行人工评价,并与GPT-4o的评分进行比较,考察GPT-4o评价与真实情况的吻合程度,给出相应的评分(优秀/良好/及格/不及格)。
最终得到的人类一致性评估结果(合格率)如下:

测评分析及结论

1.长文本综合能力,GPT-4o领先国内模型,但领先幅度不大。

由测评结果可知,GPT-4o(68.39分)表现出色,领跑SuperCLUE-Long基准。国内最好模型Moonshot(kimi)取得66.79分,略低于GPT-4o有1.6分。

2.长文本能力总体水平差距不大,其中在解析任务方面,模型间的分差更大。
从对比数据分析可知,GPT-4o和Moonshot(kimi)稳居三大任务的前两名,其中在创作任务中,Moonshot(kimi)的得分高于GPT-4o。而在解析任务中,GPT-4o是得分唯一超过70分的模型。创作任务中分数分布比较均匀,摘要任务中分数变化幅度有所提升,而在解析任务中,最高分和最低分之间有明显差距,任务难度系数更高。
3.部分模型会随着长度增加出现性能损失

部分模型(如GPT-4o、Kimi)在不同长度文本上表现稳定,而其他模型(如GLM-4、Claude-instant-100k)则存在较大波动,性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。

4.不同模型擅长的长文本任务类别不同,呈现多样化。

通过测评数据可以发现,不同模型擅长的二级维度任务不同。例如,豆包在长文本的数理分析任务中表现最好,Moonshot(kimi)擅长全文摘要和线索摘要,360gpt2-pro-360k则在内容创作助理中表现最好。

# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

# 邮件申请

邮件标题:长文本测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、长文本大模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章