长文本测评摘要
GPT-4o-2024-05-13取得68.39分,领跑长文本基准。其中解析任务有70+分的表现。但摘要任务和创作任务上低于70分,仍有较大的提升空间。可见,当前长文本任务对大模型仍是较大挑战。
国内大模型Moonshot(kimi)取得66.79分,暂列国内第一,稍落后GPT-4o-2024-05-13有1.6分。豆包、Baichuan4、360gpt2-pro-360k、通义千问2.5、文心一言4 turbo仅随其后,均有超过64分的表现。
通过测评数据可以发现,不同模型擅长的二级维度任务不同。例如,豆包在长文本的数理分析任务中表现最好,Moonshot(kimi)擅长全文摘要和线索摘要,360gpt2-pro-360k则在内容创作助理中表现最好。
# 榜单概览
# SuperCLUE-Long介绍
文本类型包括新闻资讯、公众文章、学术论文、法律文书、保险条例、医疗报告、财经报告、教学材料、会议记录、小说、说明文件等;任务类型涵盖总结摘要、信息解读、对比问答、数理分析、文本创作等;答案形式包括文字和表格等。全面反映用户在长文本大模型使用中的各种问题。
评价标准
符合基本要求:回答应遵循用户意图,满足用户提出问题的基本目的和需求,试图对问题进行恰当的回应。 语言与逻辑连贯性:语言表达是否流畅、逻辑是否清晰、各个部分是否有机组合在一起、层次是否分明。 信息提炼度:答案所提供的信息是否完全符合文本内容。是否存在对文本信息的误用,或者添加不属于文本的信息。 推理链条完整度:在进行全文范围内的逻辑链条梳理过程中是否完整地、准确的涵盖了全部相关信息。
知识正确:对于文章中的知识点与内容信息的解读要正确。
数理分析能力:对于数学问题、表格信息、公式解析等问题是否具备较好的响应功能。
多语言响应能力:模型中英文互译的综合能力。
创造性:回答是否具有创新性或独特性,是否提供了新颖的见解或解决方法。
角色扮演与AI助手:充分理解文章内容,进而模拟其中人物的表达方式与思维模型进行问答、续写等人物或充分学习文章内容进而充当AI助手的综合能力。
1)测评集构建
2)评分过程
3)人类一致性分析
文件:普瑞巴林胶囊说明书.pdf
Prompt:根据输入的普瑞巴林胶囊说明书内容,总结说明不良反应及其处理措施。
模型答案:
(文章篇幅有限,省略具体内容)
(文章篇幅有限,省略具体内容)
(文章篇幅有限,省略具体内容)
超级模型(gpt-4o)裁判:
----逐项打分开始----
1. 基于标准1的<符合基本要求>;
2. 基于标准2的<语言与逻辑连贯性>;
3. 基于标准3的<创造性>;
回答缺乏独特性和创新性,没有提供新的见解或建议,基本上是对文档内容的简单重述;基于标准3的得分为3分。
# 模型对比案例
维度一:摘要
案例1:摘要-线索摘要
文件:边城.pdf
高分模型答案(GPT-4o):
小说中的老船夫是一个守护渡船五十年的老人,他的生活简单而辛劳,与孙女翠翠相依为命。老船夫为人忠厚正直,对孙女怀有深厚的爱与关怀。他坚持不接受渡客的酬劳,宁愿用自己的劳动换取心安理得。他对生活的态度淳朴而执着,为了翠翠的未来尽心尽力,希望她能找到一个可靠的归宿。
老船夫年轻时也曾经历过情感的波折,女儿的悲剧让他更加珍惜和保护翠翠。面对翠翠的成长,他既有欣慰也有担忧,甚至在翠翠的婚事上操碎了心。尽管他努力为翠翠寻找合适的对象,但因为种种误会和不幸,最终未能如愿。
老船夫对生活和人性的理解深刻,他相信命运和天意,尽管自己年老体衰,却始终保持对生活的热情和对家人的责任心。他的去世让翠翠陷入悲痛,但他的精神和教诲依然深深影响着她。小说通过老船夫的生活和情感,展现了一个普通劳动者的坚韧和善良,同时也反映了人们在面对命运时的无奈与坚韧。
评分:【4.25分】
低分模型答案:
评分:【1.75分】
维度二:解析
案例2:解析-全文信息解读
文件:浙江省***投资集团股份有限公司-2024 年第一季度报告.pdf
高分模型答案(Moonshot-kimi):
浙江省***投资集团股份有限公司的2024年第一季度财务报告提供了公司在该季度的财务状况和经营成果的详细概览。以下是对该报告的详细分析:
### 1. 财务概览
**营业收入**:1,172,645,832.59元,同比增长12.10%。
**归属于上市公司股东的净利润**:172,922,853.99元,同比增长42.88%。
**基本每股收益**:0.0719元,同比增长23.54%。
**加权平均净资产收益率**:1.42%,较上年同期增加了0.03个百分点。
### 2. 资产负债情况
### 3. 股东情况
### 4. 非经常性损益
### 5. 经营活动产生的现金流量
### 6. 投资活动产生的现金流量
### 7. 筹资活动产生的现金流量
### 8. 综合分析
### 9. 风险与机遇
(篇幅有限,省略以上具体内容)
### 10. 结论
评分:【4分】
低分模型答案:
浙江省***投资集团股份有限公司2024年第一季度报告分析:
一、业务状况分析
公司主营新能源项目,如风力发电和水力发电等。报告期内,受风电和水电项目发电量较上年同期增长的影响,公司实现盈利状况良好。
二、财务状况分析
公司长期投资和固定资产占比较大,反映出公司长期投资能源项目的特点。
三、未来发展前景
随着国家大力支持新能源产业,公司将重点发展风电、光伏发电等领域。同时会加大自动化程度,降低运行成本。
评分:【2分】
# 人类一致性评估
# 测评分析及结论
由测评结果可知,GPT-4o(68.39分)表现出色,领跑SuperCLUE-Long基准。国内最好模型Moonshot(kimi)取得66.79分,略低于GPT-4o有1.6分。
部分模型(如GPT-4o、Kimi)在不同长度文本上表现稳定,而其他模型(如GLM-4、Claude-instant-100k)则存在较大波动,性能会随着长度的提升而减弱。这反映了不同模型在处理各种长度文本时的稳定性存在显著差异。
4.不同模型擅长的长文本任务类别不同,呈现多样化。
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 获得测评报告
# 邮件申请
邮件标题:长文本测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、长文本大模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark