长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

文摘 2024-12-27 18:02 北京

清华大学和智谱的研究团队推出了 LongBench 的第二代——LongBench v2，一个专为评估大模型在真实世界长文本多任务中的深度理解和推理能力而设计的基准测试。

来源丨PaperWeekly

项目主页：https://longbench2.github.io

论文链接：https://arxiv.org/abs/2412.15204

数据与代码链接：https://github.com/THUDM/LongBench

LongBench v2 的特色

相比于现有的长文本理解基准测试，LongBench v2 具有以下几个显著特点：

更长的文本长度：LongBench v2 的文本长度范围从 8k 到 2M 个词，其中大多数文本的长度小于 128k。
更高的难度：LongBench v2 包含了 503 个具有挑战性的四选一选择题——即使是使用文档内搜索工具的人类专家，也很难在短时间内正确回答这些问题。人类专家在 15 分钟的时间限制下，平均准确率仅为 53.7%（随机的准确率为 25%）。
更广泛的任务覆盖：LongBench v2 涵盖了六个主要的任务类别，包括单文档问答、多文档问答、长文本语境学习、长对话历史理解、代码仓库理解和长结构化数据理解，共计 20 个子任务，覆盖了各种现实场景。
更高的可靠性：为了保证评估的可靠性，LongBench v2 的所有问题都采用多项选择题的形式，并经过了严格的人工标注和审核流程，确保数据的高质量。

数据收集流程

为了确保数据的质量和难度，LongBench v2 采用了严格的数据收集流程，主要包括以下几个步骤：

文档收集：招募 97 名来自顶尖大学、具有不同学术背景和年级的标注员，收集他们个人阅读或使用过的长文档，例如研究论文、教科书、小说等。
数据标注：标注员根据收集到的文档，提出一个多项选择题，并提供四个选项、一个正确答案和相应的证据。
自动审核：使用三个具有 128k 上下文窗口的大模型（GPT-4o-mini、GLM-4-Air 和 GLM-4-Flash）对标注的数据进行自动审核，如果三个模型都能正确回答问题，则认为该问题过于简单，需要重新标注。
人工审核：通过自动审核的数据会被分配给 24 位专业的人类专家进行人工审核，他们会尝试回答问题，并判断问题是否合适、答案是否正确。如果专家在 3 分钟内能够正确回答问题，则认为该问题过于简单，需要重新标注。此外，如果专家认为问题本身不符合要求或答案有误，也会退回重新标注。
数据修订：未通过审核的数据会被退回给标注员进行修订，直到通过所有审核步骤。

数据收集总共花费约 10 万元，并持续了近三个月。研究团队对其中 70 条数据进行了抽查，发现 68 / 70 条数据答案完全准确，67 / 70 条数据是 Google-proofed（即 15 分钟内无法通过互联网检索得到答案）。

数据统计

下表展示了 LongBench v2 中的 6 大类任务和 20 小类任务，以及各任务子类的数据量、数据长度中位数、人类专家回答正确率和回答时间中位数。

数据根据难度分为两类：如果人类专家无法在 10 分钟内正确回答，且在自动审核阶段不超过 1 / 3 的模型能够正确回答，则该数据归类为 “hard”，该类数据共有 311 条；其余 192 条数据归为 “easy”。根据文本长度，数据被分为 “short”（<32k）、“medium”（32k-128k）和“long”（>128k）三类，分别含有 180、210 和 108 条数据。

评估结果

研究团队使用 LongBench v2 评估了 10 个开源 LLMs 和 6 个闭源 LLMs。评估中考虑两种场景：zero-shot 与 zero-shot+CoT（即先让模型输出 chain-of-thought，再让模型输出所选答案）。灰色的单元格中展示的是在 zero-shot+CoT 下的评测结果。

评估结果表明，LongBench v2 对当前的长文本大模型来说是一个巨大的挑战，即使是表现最好的模型，在直接输出答案的情况下，也仅取得了 50.1% 的准确率，而引入了更长推理链的 o1-preview 模型则取得了 57.7% 的准确率，超过了人类专家 4%。

1. Scaling Inference-Time Compute 的重要性

评估结果中一个非常重要的发现是，通过扩展推理时间计算（Scaling Inference-Time Compute），可以显著提升模型在 LongBench v2 上的表现。例如，o1-preview 模型相比于 GPT-4o，通过集成更多推理步骤，在多文档问答、长文本语境学习和代码仓库理解等任务上取得了显著的提升。

这表明，LongBench v2 对当前模型的推理能力提出了更高的要求，而增加推理时间的思考和推理似乎是解决此类长文本推理挑战的一个自然且关键的步骤。

2. RAG + Long-context实验

实验发现，Qwen2.5 和 GLM-4-Plus 两个模型在检索块数量超过一定阈值（32k tokens，约 64 个 512 长度的块）后，性能并没有显著提升，甚至出现下降的情况。

这表明简单地增加检索到的信息量并不总能带来性能的提升。相比之下，GPT-4o 能够有效利用更长的检索上下文，其最佳 RAG 性能出现在 128k 检索长度时。

总结来说，在面对需要深度理解和推理的长文本问答任务时，RAG的作用有限，特别是当检索块数量超过一定阈值后。模型需要具备更强的推理能力，而不仅仅是依赖检索到的信息，才能有效处理 LongBench v2 中的挑战性问题。

这也暗示了未来的研究方向也需要更多地关注如何提升模型自身的长文本理解和推理能力，而不仅仅是依赖外部检索。

期待 LongBench v2 能够推动长文本理解和推理技术的发展。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

语音之家

助力AI语音开发者的社区

天工版o1、4o同时上线！实时语音陪聊太上头

通过流匹配实现高效、高质量的文本转音频生成

语音/音频处理学术速递[1.6]

AI语音招聘岗位合集

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

活动报名丨第五届全国人工智能大赛

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

语音/音频处理学术速递[1.3]

AI教父辛顿力挺马斯克，明确反对 OpenAI 的营利化转型。

分享 10 款免费在线 TTS 工具，开启语音新世界大门

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

使用知识图谱增强大语言模型生成问答逻辑形式

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

ICASSP2025丨语音国家工程研究中心26篇录用论文分享

国产大模型全球“刷屏”，总训练成本557万美元，性能比肩GPT-4o

语音/音频处理学术速递[12.31]

ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

2024年人工智能年终总结报告｜Artificial Analysis

语音/音频处理学术速递[12.30]

AI语音招聘岗位合集

听见未来，AI+Audio｜2025中国国际音频产业大会（GAS）

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

全球首个中文安全领域事实性基准评测集发布

音频版ControlNet来了！Adobe推出Sketch2Sound

AI首次自主发现人工生命！人类窥见上帝造物

INFP：照片+音频让蒙娜丽莎秒变播客主理人

语音/音频处理学术速递[12.25]

CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

ICASSP2025丨人类语言技术实验室（HLT Lab）10篇录用论文分享

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

语音/音频处理学术速递[12.24]

ICASSP2025丨IMU语音理解与生成实验室3篇论文分享

开源更新丨通义3D-Speaker多说话人日志功能

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

语音/音频处理学术速递[12.23]

AI语音招聘岗位合集

GAS"消费电子科创奖” | 展示消费电子行业突破性成果

WavChat：深入探索语音对话模型的前沿

Interspeech 2025丨首届言语健康挑战赛

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

内大语音理解与生成实验室最新视觉语音合成工作分享

语音/音频处理学术速递[12.20]

【AI对话系统新挑战】FutureDial-RAG Challenge详解

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

语音/音频处理学术速递[12.19]

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉