SuperCLUE-Long:中文原生长文本测评基准

文摘   科技   2024-05-30 12:28   浙江  

随着大语言模型应用的推广,越来越多的用户开始参与到模型的使用中,进而对模型的性能也提出了更多的要求。“长文本”作为用户普遍关注的热点话题,是目前国内外企业重点推进的项目,例如OpenAI推出的GPT-4 Turbo-128k;Anthropic推出的Claude3-200k。国内的企业,如月之暗面也推出了支持200万字输入的Kimi,阿里旗下的通义千问免费开放了支持1000万字的长文本处理功能。
在大模型“百模大战”的当下,各类长文本大模型在文本长度限制不断刷新记录的同时,也逐步跟进了用户体验的设计,模型可支持的应用场景逐渐丰富,支持的文件上传形式与答案响应方式也逐渐多元化,为用户提供了诸多可选择的长文本应用系统。
因此,为了衡量国内外长文本大模型的发展水平,为用户提供更为直观的、专业的长文本大模型体验报告,考量国内长文本大模型的落地实况,协助国内长文本大模型突破发展瓶颈,我们推出了中文原生长文本测评基准SuperCLUE-Long(SC-Long),旨在为长文本大模型发展现状进行量化评估。
项目地址:www.CLUEbenchmarks.com/superclue_long.html
文章地址:https://github.com/CLUEbenchmark/SuperCLUE-Long

# SuperCLUE-Long
1. 特点
(1)中文原生长文本专项能力评估
立足于为通用人工智能时代提供中文世界基础设施,文字输入或prompt提示词都是中文原生的,不是英文或其翻译版本;并充分体现中文世界的场景和特点。在长文本文件输入层面,除了对英文文本做中文摘要的任务类型之外,全部文件均采用中文输入。
(2)功能测试与场景应用的双重评估
本次测评将双重评估长文本大模型的系统功能与实际应用场景应对能力,旨在全面衡量模型解析长文本并正确响应用户需求的综合能力。文本类型包括新闻资讯、公众文章、学术论文、法律文书、保险条例、医疗报告、财经报告、教学材料、会议记录、小说、说明文件等;任务类型涵盖总结摘要、信息解读、对比问答、数理分析、文本创作等;答案形式包括文字和表格等。全面反映用户在长文本大模型使用中的各种问题。

(3)多种文本长度级别
为了更细致、更全面地展现长文本大模型的能力水平,结合国内外长文本大模型发展的实际情况,我们在每一个任务类型中都设置了不同文件大小的题目。目前的长度设置为8K、32K、64K、128K、256K,总体上各类长度在不同任务重均有所提现。

2. 任务类型

摘要
(1)全文摘要:对长文本的全部文本内容进行摘要处理。
文件:城市经济学模型与实证方法的研究进展与趋势.pdf
问题:请根据文章内容提供一篇字数不超过300字的摘要,概括该文的主要研究内容、方法和结论。同时,提取并列出与文章内容相关的关键词。
(2)局部摘要对长文本的部分文本内容,如章节、段落等进行摘要处理。
文件:联合国大会第七十七届会议第八十五次全体会议.pdf
问题:请根据会议信息,摘要总结郭嘉昆先生在此次会议上的发言内容。要求摘要字数不超过300字,并重点突出发言的主要观点和结论。
(3)线索摘要根据线索信息,对中文长文本的部分文本内容进行摘要处理。
文件:《西游记》.pdf
问题:根据小说内容,整理概括孙悟空成为斗战胜佛的过程,要求条理清晰、语言简洁。要求字数限制在300字以内。
(4)英文文本摘要对英文长文本进行全文、局部或线索的中文摘要。
文件:Building digital twins of cities using the Inter Model Broker framework.pdf
问题:请根据文章内容提供一篇中文摘要,概括该文的主要研究内容、方法和结论,并生成相关关键词。要求摘要字数不超过400个字。
解析
(1)全文信息解读针对长文本中涉及的文章信息、情感判断等问题进行解答。
——信息解读方向示例
文件:近十年我国城市化地区主体功能实现的空间表现特征与未来布局优化.pdf
问题:在文章的“集成分析方法和综合集聚类特征”部分,作者阐述了具体的研究方法。请结合文章内容,详细讲解该方法在长三角地区的实施过程。要求讲解具体到长三角地区的各省级行政区及其下辖的各区或市,并说明每个区域的具体操作和分析步骤。
——情感判断向示例
文件:情感判断.pdf
问题:请对文中100条带有情感指向的表述逐条进行判断。将表示喜欢、喜悦、积极、乐观等正向情感的表述记作1,将表示厌恶、悲伤、消极、悲观等负向情感的表述记作0。最终计算并提供正向和负向情感的比例。请直接提供计算结果,不需要分析过程。
(2)多文本信息处理综合考量多个文本内容,并根据指令进行处理,包括关键信息筛选、目标文档定位、文本信息对比等。
——关键信息筛选方向示例

文件:绿色技术创新能够促进地区经济高质量发展吗?——兼论环境政策的选择效应.pdf

        绿色创新的前因后果:一项元分析.pdf

        绿色金融、环境规制与产业结构优化.pdf
问题:请综合分析以上三篇文献,归纳绿色创新技术与环境政策的相互作用及其对地区经济高质量发展的影响路径。总结理论和实证层面存在的主要缺陷和偏误,并提出改进方向。
——目标文档定位方向示例

文件:环境规制、技术创新与全要素生产率——基于东部地级市动态面板数据的实证分析.pdf

        环境规制、火电产业与地区碳排放强度.pdf

        环境规制、财政分权与经济高质量增长.pdf

        不同类型环境规制对全要素能源效率的影响.pdf

        “双碳”目标约束下环境分权的产业升级效应研究.pdf
问题:请识别并列出讨论“碳排放”主题的文章。然后,分析这些文章的研究视角、方法、关键发现和创新点。最后,评估它们的学术贡献和实际应用潜力,并讨论对环境政策、产业升级和经济增长的影响。
——文本信息对比方向示例

文件:数据挖掘技术在图书馆管理信息系统中的运用.pdf

        面向知识服务的图书馆管理信息系统的设计与实现.pdf

问题:请深入分析并对比两篇关于图书馆管理系统设计的文章,从以下方面进行详细的对比,并以表格形式展现结果:

1. 设计原则:对比两篇文章在图书馆管理系统设计中所遵循的原则。
2. 技术架构:分析两篇文章所采用的技术架构及其特点。
3. 功能模块:详细对比两篇文章中提到的功能模块及其实现方式。
4. 实现技术:探讨两篇文章在实现图书馆管理系统时所采用的具体技术手段。
5. 系统测试与优化:分析两篇文章对系统测试和后续优化的策略。
(3)翻译:对英文本文本进行部分或全文翻译。
文件:Rapid AI Development Cycle.pdf
问题:请为我翻译论文中的Methods部分

(4)检索定位针对某个关键词或关键信息进行检索并准确定位以上内容在文本中的具体位置。

文件:高等数学.pdf

问题:在《高等数学》这本书中,讨论了多元函数微分学及其应用,其中包括了空间曲线和曲面的相关概念。请找到并解释在多元函数微分学章节中,关于空间曲线的参数方程是如何定义的,并结合具体的例子(例如螺旋线),说明其参数方程的物理意义和在微分学中的应用

(5)数理分析针对文章中涉及的数学计算与逻辑推理类问题进行正确的分析。

文件:财报.pdf

问题:请综合图书零售行业报告、宏观经济环境和发展趋势,预测2024年下半年图书零售行业的主要投资点。评估新兴业务的商业化潜力,结合财务数据和风险因素,制定详细的投资策略,包括投资时机和预期收益。

(6)多轮信息解读针对文章信息,结合用户需求进行多轮问答。

文件:货币供求理论.pdf

问题:第一问:在文件中提及的‘现代货币需求理论’一节中,详细探讨了哪些理论?请列举这些理论,并针对每一个理论,详细说明其核心观点、主要贡献者、理论的基本假设、关键的经济变量。此外,对于每个理论,还应讨论其在不同经济条件下的适用性及其局限性。

第二问:请详细对比凯恩斯学派与新剑桥学派在货币需求理论上的异同点。在您的分析中,需要包括以下几个方面:

1. 各学派对货币需求动机的分类和解释,以及这些分类如何反映在它们的货币需求函数中。
2. 各学派理论中使用的数学模型和表达方式,包括需求函数中的关键变量和参数。
3. 各学派关于货币需求与利率、收入水平以及其他经济指标之间关系的假设和理论表述。

(7)URL解析根据用户提供的URL并遵循用户指令进行信息解读。

链接:https://wallstreetcn.com/articles/3714405

问题:阐述自2024年以来全球资产“风口”轮动的主要阶段,并深入解析每一阶段背后的宏观经济逻辑、市场情绪变化以及金融条件松紧下如何具体影响资产定价和增长预期。

创作

(1)文本再创作根据所给的多个中文文档的内容,并按照指令的要求生成一个完整的文本内容,考察提取信息及综合运用这些信息的能力

文件:有关互联网金融与金融科技发展的现状问题探究.pdf
        云计算技术下的互联网金融应用研究.pdf
        依托云平台在互联网金融时代乘风破浪.pdf

        专有云建设推动IT架构转型实践.pdf

问题:请根据以上四篇文档,撰写题为《云计算在互联网金融中的应用与展望》的论文,要求包括以下内容:
1.云计算在互联网金融中的当前应用现状;2.云计算技术的主要优势;3.面临的挑战和问题;4.未来的发展趋势和展望。

(2)内容创作助理根据所给的多个中文文档的内容,并按照指令的要求生成文章的内容大纲,考察提取信息及总结概括这些信息的能力

文件:有关互联网金融与金融科技发展的现状问题探究.pdf
        云计算技术下的互联网金融应用研究.pdf
        依托云平台在互联网金融时代乘风破浪.pdf

        专有云建设推动IT架构转型实践.pdf

问题:请根据以下四篇文档,为我完成题为《云计算在互联网金融中的应用与展望》的论文大纲设计。内容包括但不限于:背景、问题、技术和趋势等模块。

(3)风格化文本创作模拟文章中人物的表达方式与思维模型进行文本再创作

文件:《连城诀》.pdf

问题:请模仿《连城诀》中狄云的口吻,从他的视角为这篇文件生成续集。故事背景为狄云回归田园后潜心修炼,期间清朝在尼布楚抗击沙俄,狄云随即出山,暗中支援清军。续集应包含以下内容1.狄云的内心独白和心理活动;2.修炼过程中的重要事件;3.抗击外敌的具体行动和战斗描写;4.狄云与其他角色的互动.

3.评估指标与评估示例

评估指标
  • 符合基本要求:回答应遵循用户意图,满足用户提出问题的基本目的和需求,试图对问题进行恰当的回应。
  • 语言与逻辑连贯性:语言表达是否流畅、逻辑是否清晰、各个部分是否有机组合在一起、层次是否分明。
  • 信息提炼度:答案所提供的信息是否完全符合文本内容,是否存在对文本信息的误用,是否对文本内容做了全面的概括与总结。

  • 推理链条完整度:在进行全文范围内的逻辑链条梳理过程中是否完整地、准确的涵盖了全部相关信息。

  • 知识正确:对于文章中的知识点与内容信息的解读要正确。

  • 创造性:回答是否具有创新性或独特性,是否提供了新颖的见解或解决方法。

  • 数理分析能力:对于数学问题、表格信息、公式解析等问题是否具备较好的响应功能。

  • 角色扮演与AI助手:充分理解文章内容,进而模拟其中人物的表达方式与思维模式进行问答、续写或充分学习文章内容进而充当AI助手的综合能力。

  • 多语言响应能力:模型中英文互译的综合能力。

任务类型与评估指标对应关系

评估示例

示例

文件城市群型自创区创新共同体的建构基础与策略.pdf

问题:请结合上下文,并针对文章的第四部分“城市群型自创区创新共同体的建构策略”给出摘要。要求字数限制在300字以内。

模型答案:根据文档的第四部分内容,作者提出了城市群型自创区创新共同体的建构策略。这些策略包括创新动力、协同配置、效益输出和国际竞争等方面。通过提高创新动力,促进自主创新和技术引进,以及加强创新要素的协同配置,可以提高创新共同体的建设水平。此外,通过提高效益输出能力,实现经济和社会效益的最大化,以及提高国际竞争力,加强与国际市场的对接,也可以进一步推动创新共同体的发展。这些策略旨在打造高质量紧密型创新生态圈,为城市群型自创区的均衡发展和跨界协同创新提供参考。

超级模型(gpt-4v)裁判:

我的思考与答案:城市群型自创区创新共同体的建构策略,主要是为了推动区域内的创新和协调发展。这包括增强创新驱动力,优化资源配置,提升区域内的协同效应,以及增强国际竞争力。策略的具体内容可能涉及政策支持、资金投入、技术创新和国际合作等方面,旨在通过这些综合措施,提升自创区的整体创新能力和市场竞争力。

问题及改进的反馈意见:AI助手的回答较好地概括了文档内容,但在提供具体策略时显得较为泛泛,缺乏对特定策略的详细描述。此外,回答虽然涵盖了主要点,但在具体实施措施和预期效果方面的信息较少,这部分的详细化能进一步提升回答的深度。

打分与评价开始:

1)基于标准“符合基本要求”AI助手的回答紧扣用户的问题,提供了策略的概述,满足了基本的信息需求,基于标准可得4分;

2)基于标准“语言与逻辑连贯性”回答结构清晰,语言表达流畅,逻辑上也相对完整,但可以通过增加具体实施例子来进一步增强连贯性,基于标准可得3分;

3)基于标准“信息提炼度”回答覆盖了主要策略,但未能充分挖掘和细化文章中的具体内容和深层信息,信息提炼度有待加强,基于标准可得3分。

综合以上,AI助手的回答的综合得分(平均分)为3.3分
示例二
文件面向知识服务的图书馆管理信息系统的设计与实现.pdf

        数据挖掘技术在图书馆管理信息系统中的运用.pdf

问题:请深入分析并对比两篇关于图书馆管理系统设计的文章,从以下方面进行详细的对比,并以表格形式展现结果:
1. 设计原则:对比两篇文章在图书馆管理系统设计中所遵循的原则。
2. 技术架构:分析两篇文章所采用的技术架构及其特点。
3. 功能模块:详细对比两篇文章中提到的功能模块及其实现方式。
4. 实现技术:探讨两篇文章在实现图书馆管理系统时所采用的具体技术手段。
5. 系统测试与优化:分析两篇文章对系统测试和后续优化的策略。
模型答案:

以下是两篇文章在进行图书馆管理系统设计时的异同点对比表格:

以上表格展示了两篇文章在图书馆管理系统设计方面的主要异同点。文档1更侧重于系统的全面设计和实现,包括具体的技术构架和功能模块的详细设计。而文档2则侧重于数据挖掘技术在图书馆管理信息系统中的应用,以及如何通过这项技术提高服务的准确性和便捷性。两篇文章都强调了技术在提升图书馆管理效率和服务质量方面的重要性。

超级模型(gpt-4v)答案:

我的思考与答案用户询问了两篇文章在图书馆管理系统设计方面的异同点,并要求以表格形式展示。我的答案应该明确地列出两篇文章在设计原则:对比两篇文章在图书馆管理系统设计中所遵循的原则、技术架构、功能模块、实现技术、用户体验、系统安全性、系统维护与扩展性:对比两篇文章对于系统维护和未来扩展性的考量、系统测试与优化等方面的不同和相似之处。每一项应该清晰对比,确保用户可以直观地理解两种方法的差异和联系。

问题及改进的反馈意见AI助手的答案提供了详细的比较表,覆盖了多个关键领域。然而,对于某些领域如“系统架构”和“开发工具和环境”,回答可能过于笼统,没有提供足够的详细信息。此外,表格的某些描述可能需要进一步的澄清或详细化,以避免可能的歧义。

打分与评价开始:

1)基于标准“符合基本要求”:AI助手的回答清晰地对比了两篇文章在多个关键方面的异同,准确地满足了用户的需求。表格格式也符合用户的特定要求,使信息易于对比和理解,基于标准可得4分;

2)基于标准“知识正确”:回答中的信息表面上看似准确,但部分描述过于笼统,尤其是在系统架构和开发工具方面的描述,可能需要更具体的信息以验证其准确性。因此,这方面可以稍作提升;基于标准可得3分。 

综合以上,AI助手的回答的综合得分(平均分)为3.5分

示例三

文件有关互联网金融与金融科技发展的现状问题探究.pdf

        云计算技术下的互联网金融应用研究.pdf
        依托云平台在互联网金融时代乘风破浪.pdf
        专有云建设推动IT架构转型实践.pdf
问题:请根据以下四篇文档,为我完成题为《云计算在互联网金融中的应用与展望》的论文大纲设计。内容包括但不限于:背景、问题、技术和趋势等模块。
模型答案:

一、引言

互联网金融的兴起与云计算技术的结合背景

研究意义与目的

二、云计算技术概述

定义与核心原理

云计算的服务模型(IaaS, PaaS, SaaS)

云计算的关键技术(虚拟化、分布式存储、大数据处理等)

<中间省略>

九、云计算在互联网金融中的展望

云计算技术的发展趋势

互联网金融的未来发展方向

云计算与金融科技的深度融合前景

十、结论

云计算对互联网金融发展的重要性

对未来云计算与互联网金融结合的预测

参考文献

列出论文中引用的所有文献资料

此大纲设计综合了四篇文档中的关键信息,旨在全面分析云计算技术在互联网金融领域的应用,并对未来的发展趋势进行展望。

超级模型(gpt-4v)答案:
我的思考与答案:考虑到论文的标题《云计算在互联网金融中的应用与展望》,一个合理的论文大纲应包括云计算和互联网金融的基本定义、关键技术、发展历程、当前应用实例、面临的风险与挑战、以及未来的发展趋势。此外,应特别关注云计算如何具体影响互联网金融的操作和服务,以及两者的结合点。
问题及改进的反馈意见:AI助手的回答详尽地覆盖了云计算和互联网金融的多个方面,提供了一个全面的大纲。然而,回答中的某些部分如“金融科技与互联网金融的结合”可能需要更明确的细分,以避免与其他部分内容的重复。此外,回答可以进一步强调云计算如何优化或改变传统的金融服务流程。
打分与评价开始:
1)基于标准“符合基本要求”:回答充分遵循了用户的意图,提供了一个详尽的论文大纲,符合了完成题目要求的基本目的和需求,基于标准可得4分;
2)基于标准“语言与逻辑连贯性”:回答结构合理,逻辑清晰,每个部分之间有良好的连接,但部分内容的细节描述可能存在重复,影响了语言的精准性和逻辑的严密性,基于标准可得3分;
3)基于标准“角色扮演与AI助手”:AI助手成功地模拟了一个研究者在撰写关于云计算和互联网金融的论文时可能采用的思路和策略,展示了对文档内容的全面理解和应用;基于标准可得4分。

综合以上,AI助手的回答的综合得分(平均分)为3.67分

测评集构建
中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt
参考国际标准和当前已有工作,针对每一个维度构建专用的测评集。

评分方法

评估流程:1.获得<中文prompt>-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分

结合超级模型,在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则,将文本输入、文件送入超级模型进行评估,并获得每一个维度的评估结果。

进行评估与人类一致性分析,并报告一致性表现。

比如,针对【全文摘要】这一任务,使用符合基本要求、语言与逻辑连贯性、信息提炼度三个具体维度进行评估。

具体的说:在符合基本要求中,考察模型提供的答案是否遵循了用户的意图,满足了用户提出问题的基本目的和需求,并对问题进行了恰当的回应;在语言与逻辑连贯性中,考察模型语言表达是否流畅、逻辑是否清晰、各个部分是否有机组合在一起、层次是否分明;在信息提炼度中,考察模型所提供的信息是否完全符合文本内容,是否存在对文本信息的误用,是否对文本内容做了全面的概括与总结。


测评邀请

时间规划

1.报名:5月30日----6月17日

2.参测模型确认:6月17日

3.测评执行:6月10日--6月21日

4.测评报告发布:6月底

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告


申请评测地址

邮件标题:SuperCLUE-Long长文本测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章