清华大学和智谱的研究团队推出了 LongBench 的第二代——LongBench v2,一个专为评估大模型在真实世界长文本多任务中的深度理解和推理能力而设计的基准测试。
项目主页:https://longbench2.github.io
LongBench v2 的特色
更长的文本长度:LongBench v2 的文本长度范围从 8k 到 2M 个词,其中大多数文本的长度小于 128k。 更高的难度:LongBench v2 包含了 503 个具有挑战性的四选一选择题——即使是使用文档内搜索工具的人类专家,也很难在短时间内正确回答这些问题。人类专家在 15 分钟的时间限制下,平均准确率仅为 53.7%(随机的准确率为 25%)。 更广泛的任务覆盖:LongBench v2 涵盖了六个主要的任务类别,包括单文档问答、多文档问答、长文本语境学习、长对话历史理解、代码仓库理解和长结构化数据理解,共计 20 个子任务,覆盖了各种现实场景。 更高的可靠性:为了保证评估的可靠性,LongBench v2 的所有问题都采用多项选择题的形式,并经过了严格的人工标注和审核流程,确保数据的高质量。
数据收集流程
文档收集:招募 97 名来自顶尖大学、具有不同学术背景和年级的标注员,收集他们个人阅读或使用过的长文档,例如研究论文、教科书、小说等。
数据标注:标注员根据收集到的文档,提出一个多项选择题,并提供四个选项、一个正确答案和相应的证据。
自动审核:使用三个具有 128k 上下文窗口的大模型(GPT-4o-mini、GLM-4-Air 和 GLM-4-Flash)对标注的数据进行自动审核,如果三个模型都能正确回答问题,则认为该问题过于简单,需要重新标注。
人工审核:通过自动审核的数据会被分配给 24 位专业的人类专家进行人工审核,他们会尝试回答问题,并判断问题是否合适、答案是否正确。如果专家在 3 分钟内能够正确回答问题,则认为该问题过于简单,需要重新标注。此外,如果专家认为问题本身不符合要求或答案有误,也会退回重新标注。
数据修订:未通过审核的数据会被退回给标注员进行修订,直到通过所有审核步骤。
数据收集总共花费约 10 万元,并持续了近三个月。研究团队对其中 70 条数据进行了抽查,发现 68 / 70 条数据答案完全准确,67 / 70 条数据是 Google-proofed(即 15 分钟内无法通过互联网检索得到答案)。
数据统计
数据根据难度分为两类:如果人类专家无法在 10 分钟内正确回答,且在自动审核阶段不超过 1 / 3 的模型能够正确回答,则该数据归类为 “hard”,该类数据共有 311 条;其余 192 条数据归为 “easy”。根据文本长度,数据被分为 “short”(<32k)、“medium”(32k-128k)和“long”(>128k)三类,分别含有 180、210 和 108 条数据。
评估结果
研究团队使用 LongBench v2 评估了 10 个开源 LLMs 和 6 个闭源 LLMs。评估中考虑两种场景:zero-shot 与 zero-shot+CoT(即先让模型输出 chain-of-thought,再让模型输出所选答案)。灰色的单元格中展示的是在 zero-shot+CoT 下的评测结果。
评估结果表明,LongBench v2 对当前的长文本大模型来说是一个巨大的挑战,即使是表现最好的模型,在直接输出答案的情况下,也仅取得了 50.1% 的准确率,而引入了更长推理链的 o1-preview 模型则取得了 57.7% 的准确率,超过了人类专家 4%。
这表明,LongBench v2 对当前模型的推理能力提出了更高的要求,而增加推理时间的思考和推理似乎是解决此类长文本推理挑战的一个自然且关键的步骤。