多模态和语言模型评估与增强:高挑战性人类水平的多模态测试基准;链式检索增强生成,迭代检索链;MLLM基准冗余,基准设计原则;LLM批判能力封闭基准
Humanity's Last Exam
2025-01-24|CAIS, Scale AI|🔺30
http://arxiv.org/abs/2501.14249v1
https://huggingface.co/papers/2501.14249
https://lastexam.ai/submit
研究背景与意义
在大型语言模型(LLM)迅速发展的背景下,当前的评估基准未能有效跟上其能力的提升。这种现象导致了对LLM能力的测量出现了饱和现象,现有基准的准确率普遍超过90%,如MMLU等。这种情况限制了我们对LLM能力的深入理解,因此,提出了HUMANITY'S LAST EXAM(HLE)这一新基准,其设计目标是通过3000道极具挑战性的题目,涵盖广泛的学科领域,来评估LLM在学术问题上的真实能力。HLE的意义在于,它不仅能反映LLM在封闭式学术问题上的表现,还能为研究和政策制定提供准确的参考,促进对AI能力的透明讨论。
研究方法与创新
HLE的构建采用了多阶段的审查流程,确保每一道题目都经过严格的验证和专家评审。题目的设计强调了以下几个创新点:
题目难度与多样性:HLE包含数学、人文学科和自然科学等多领域的问题,确保了题目的多样性和难度。
专家参与:题目由全球近1000名领域专家共同开发,确保了题目的专业性和准确性。
验证机制:在提交之前,所有题目都需经过前沿LLM的验证,确保其难度足够高,以排除那些现有模型能够轻松回答的问题。
多模态设计:HLE不仅包含文本题目,还引入了图像参考,使得评估更为全面。
这些创新使得HLE成为一个能够有效测量LLM在学术领域能力的重要工具。
实验设计与结果分析
HLE的数据集由3000道题目组成,经过严格的审核和筛选,这些题目在各个学科领域内都具有较高的挑战性。在对LLM进行评估时,所有前沿模型在HLE上的表现均较低,显示出当前LLM与专家水平之间存在显著差距。具体结果如下:
准确率:所有前沿模型在HLE上的准确率普遍低于10%,表明这些模型在处理复杂的封闭式学术问题时仍显不足。
校准误差:模型在HLE上的校准误差高达80%以上,说明它们在面对困难问题时,往往表现出过高的自信心,而非承认自己的不确定性。
这些结果强调了HLE在识别和测量AI能力方面的重要性,同时也突显了当前技术的局限性。
结论与展望
HLE的推出不仅为评估LLM能力提供了新的标准,也为未来的研究方向指明了方向。尽管当前模型在HLE上的表现不佳,但随着技术的进步,预计在未来几年内,模型的准确率将显著提高,可能在2025年达到50%以上的准确率。高准确率将表明LLM在学术领域的专家级能力,但这并不意味着它们具备自主研究的能力。
未来的研究应继续关注如何提高模型的准确性和校准能力,以推动AI在更广泛领域的应用和发展。同时,HLE也将定期更新,以吸纳社区反馈,确保其在快速变化的AI领域中的持续相关性。
Chain-of-Retrieval Augmented Generation
2025-01-24|Microsoft, RUC|🔺22
http://arxiv.org/abs/2501.14342v1
https://huggingface.co/papers/2501.14342
https://aka.ms/GeneralAI
研究背景与意义
在当今信息爆炸的时代,检索增强生成(Retrieval-Augmented Generation, RAG)技术在处理复杂查询时显得尤为重要。传统的RAG方法通常依赖单一步骤的检索,这在面对复杂问题时常常导致信息的不完整或不准确,从而影响最终生成的答案的质量。本文提出的CoRAG(Chain-of-Retrieval Augmented Generation)方法,通过动态地重构查询,逐步检索和推理相关信息,显著提高了模型在多跳问答任务中的表现。研究的核心在于通过迭代检索链的生成,提升信息的相关性和准确性,进而增强模型的信任度和实用性。
研究方法与创新
CoRAG的主要创新在于其动态检索和迭代推理的能力。具体方法包括:
检索链生成:通过拒绝采样技术自动生成中间检索链,避免了手动标注的繁琐过程。 模型训练:在增强的数据集上进行多任务学习,模型同时接受下一个子查询、子答案和最终答案的预测任务。 测试时计算的可扩展性:提出多种解码策略(如贪婪解码、N最佳采样和树搜索),以控制测试时的计算资源消耗。这种灵活性使得模型能够在不同复杂度的查询中自适应调整检索步骤的数量。
通过以上创新,CoRAG在多个基准测试中表现出色,尤其是在多跳问答任务上,相较于强基线模型,提升超过10个点的准确率。
实验设计与结果分析
实验部分,CoRAG在多个多跳问答数据集(如2WikiQA、HotpotQA等)上进行评估。实验设计包括:
数据集准备:使用多跳问答数据集和KILT基准测试集,评估模型在不同任务上的表现。 性能评估:通过准确率(EM)和F1分数等指标,系统地比较CoRAG与其他基线模型的性能。
实验结果显示,CoRAG在多跳问答任务中表现优异,特别是在处理复杂查询时,展示了强大的信息检索与推理能力。此外,CoRAG在KILT基准测试中的表现也达到了新的状态-of-the-art,证明了其广泛的适用性和有效性。
结论与展望
CoRAG方法的提出,标志着RAG技术在处理复杂查询时的一个重要进展。通过动态检索和迭代推理,CoRAG不仅提升了模型的生成质量,也为未来的研究奠定了基础。展望未来,CoRAG有望扩展到更多具有挑战性的RAG任务中,进一步推动构建事实准确、可信赖的AI系统的进程。
Redundancy Principles for MLLMs Benchmarks
2025-01-20|Shanghai AI Lab, SJTU, ZJU|🔺21
http://arxiv.org/abs/2501.13953v1
https://huggingface.co/papers/2501.13953
研究背景与意义
在多模态大型语言模型(MLLMs)快速发展的背景下,评估方法的重要性愈发凸显。随着每年产生的基准数量激增,研究者们发现基准之间存在显著的冗余现象。这种冗余不仅影响了模型评估的有效性,还可能导致研究重点的偏移。因此,本文旨在深入分析当前MLLM基准的冗余性,并提出针对性的原则,以构建更有效的评估基准。
研究问题的定义:当前的评估基准在能力维度、测试问题数量及跨基准的冗余性方面存在不足。 现状概述:随着VQA(视觉问答)基准的快速发展,传统评估方法已无法满足新型MLLMs的灵活评估需求。 挑战的指出:冗余现象导致了评估效率的低下,重复测试相似能力的模型而未能提供新的见解。 目标的阐明:通过全面分析现有MLLM评估的冗余性,为未来基准的设计提供指导。
研究方法与创新
本文提出了一种基于性能相关性的冗余评估框架,旨在量化现有基准的冗余程度。该框架从以下几个方面进行探讨:
维度冗余的识别:通过计算不同维度之间的性能排名相关性,识别冗余维度。 实例冗余的评估:随机抽样一部分实例并与整体性能进行比较,评估样本的代表性。 跨基准冗余的分析:通过比较不同基准之间的性能排名,识别关键的锚基准。
创新点:
提出了独立性原则,强调基准维度之间应尽量独立,避免不必要的重叠。 指出了最佳实例数量的设计原则,以确保评估的有效性和可靠性。
实验设计与结果分析
在实验设计中,研究者们针对不同的MLLMs进行了广泛的基准评估。以下是主要的实验过程和结果分析:
实验的描述:对超过20个基准进行全面评估,涵盖了多种能力和任务。 结果的分析:通过计算不同维度和实例的冗余度,得出了冗余度较高的维度和实例。 基准的对比:对比了当前主流基准的性能,发现某些基准在评估相似能力时存在显著的冗余性。 统计显著性:通过多场景的表现分析,验证了所提出的框架的有效性。
结论与展望
本文总结了当前MLLM评估基准的冗余性问题,并提出了相应的解决方案。未来的研究应关注以下几个方向:
方法的局限性:当前框架在处理复杂任务时可能存在不足,需进一步优化。 方法的展望:未来可以结合更多的任务类型和领域,扩展评估框架的适用性。 基准设计的优化:根据研究结果,持续改进基准设计,以提升评估的有效性和效率。
通过对现有问题的深入分析和解决方案的提出,本文为MLLMs的评估方法提供了新的视角和指导。
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques
2025-01-24|CUHK(SZ), Qwen Team, SRIBD|🔺13
http://arxiv.org/abs/2501.14492v1
https://huggingface.co/papers/2501.14492
https://github.com/tangzhy/RealCritic
研究背景与意义
在大型语言模型(LLMs)迅猛发展的背景下,模型的批评能力成为提升其性能的重要因素。批评不仅能为模型提供自我改进的机会,还能为其他模型提供建设性的反馈,从而推动整体效果的提升。然而,评估LLMs的批评能力却面临着巨大的挑战,主要是由于任务的开放性和复杂性。现有的评估方法多采用开放式的方式,缺乏有效的标准来衡量批评的质量。因此,本文提出了一种新的基准——RealCritic,旨在通过封闭式的方法来评估LLMs的批评能力,尤其是在自我批评、交叉批评和迭代批评等方面。这一基准的提出,不仅为LLMs的批评能力提供了有效的评估工具,也为未来的研究指明了方向。
研究方法与创新
RealCritic的核心在于其封闭式评估方法,即通过批评生成的修正结果来直接衡量批评的质量。这一方法的创新之处在于,它将批评视为一个动态的反馈过程,而非孤立的评估任务。具体而言,研究者通过八个具有挑战性的推理任务来实现评估,其中包括五个开放式数学推理任务和三个一般领域的多项选择题。通过对比传统的评估方法,RealCritic能够更有效地识别出LLMs在批评能力上的优缺点,尤其是在自我批评和交叉批评的场景中。此外,研究还强调了迭代批评的重要性,这一过程不仅能够提高模型的自我修正能力,还能在多轮反馈中实现持续改进。
实验设计与结果分析
在实验设计上,研究者选择了多种主流的语言模型,包括LLaMA、Mistral和o1-mini等,使用统一的生成参数进行评估。实验结果显示,o1-mini在自我批评和交叉批评任务中均表现优异,尤其是在复杂的数学推理任务中,其批评能力明显优于其他模型。通过对比分析,研究者发现,虽然大多数模型在自我批评中表现不佳,但o1-mini在多个任务中展现了强大的自我改进能力,尤其是在College Math和ARC任务中,其改善幅度可达24%。这表明,o1-mini的架构或训练方法可能更适合于自我反思和批评任务。
结论与展望
本文提出的RealCritic基准为评估LLMs的批评能力提供了新的视角和工具。通过对不同模型在批评任务中的表现进行深入分析,研究揭示了当前模型在批评能力方面的优势和局限性。未来的研究可以进一步探索如何通过优化模型架构和训练方法,提升LLMs在批评能力上的表现。此外,研究者也期待RealCritic能够为后续的模型发展和应用提供指导,推动LLMs在更广泛领域的应用和发展。