大语言模型(LLMs)通常在海量数据上训练过,这造成了潜在的 测试数据污染 问题[1, 2, 3],即公开的测试数据如MMLU等会不可避免地被加入训练集或有针对性地overfit测试集的问题。如何保证测试数据能够合理且正确的评估大语言模型这一问题引起了学术界的广泛关注。先前的工作DyVal [1] (Dynamic Evaluation,动态评测协议)利用有向无环图(Directed Acyclic Graphs, DAGs)动态生成测试数据,减少了测试数据被模型记忆的可能。然而,DyVal很难利用至那些无法用DAG表示的任务中(如mmlu,arc等)。本文将DyVal升级,提出Meta Probing Agent (MPA)。MPA设计了探测(probing)和评判(judge)agent,遵循心理测评学理论的三种基本认知能力:语言理解、问题解决和领域知识,自动将原始评估问题转变为新的问题。这些基本能力还可以动态配置,允许多角度分析。本文对经过MPA转换的评测数据集进行了广泛的评估,发现大多数LLMs的性能有较大的下降,表明了可能存在的测试数据污染的问题。此外,本文提出的多角度分析显示了大模型在三种心理学基本能力之间的强相关性以及模型大小的隐性马太效应,即较大的模型拥有更强的能力相关性。此外,MPA还可以用作数据增强方法来增强LLMs在各个数据集上的表现。
论文标题:Dynamic Evaluation of Large Language Models by Meta Probing Agents 论文链接:https://arxiv.org/pdf/2402.14865 代码链接:https://github.com/microsoft/promptbench 文章第一作者是微软亚洲研究院实习生朱凯捷,通讯作者是微软亚洲研究院高级研究员王晋东。其他作者来自中国科学技术大学和微软亚洲研究院。
背景介绍
大语言模型在各种任务中取得了前所未有的表现。如此出色的表现引发了人们对大型语言模型成为人工通用智能先驱的可能性的积极猜测,因此有必要对其进行全面而细致的评估。尽管人工智能测评benchmarks不断涌现,但目前仍然面临着两个根本性的挑战:
数据污染。许多benchmark数据来源于互联网,这可能会导致与训练模型的大量语料重叠,从而引发 "泛化与记忆 "的争论:模型的出色表现是源于其真正的能力还是仅仅是对训练数据的记忆[1,2,3,4]? 评估结果单一。一个良好的评估不仅应提供基准测试结果,还应提供有关模型未来发展的结构能力的洞察。例如,数学应用问题至少需要两种能力:语言理解(以理解问题)和推理(以解决问题)。哪种能力更重要,我们如何量化这些能力之间的关系?
元探测代理框架
在本文中,我们提出了一种基于代理的动态评估协议,称为元探测代理(Meta Probing Agent, MPA),用于评估和分析大型语言模型。MPA通过设计动态生成新问题(见下图),桥接了心理测量学与LLMs评估之间的差距。这些原则对应于心理测量理论中的三种基本认知能力:语言理解、问题解决和领域知识。因此,MPA支持动态评估样本生成和多面向能力分析。
具体而言,MPA不像DyVal那样依赖图结构生成样本,而是使用基于LLM的代理自动将现有问题转换为新问题,这种方式更加灵活,支持多种任务。我们将这些代理定义为“探测”(probing) agent,旨在揭示问题中的潜在知识。MPA进一步利用一个名为“评判”(judge) agent 来验证生成的评估样本。这种对抗方式确保新样本与原始样本保持一致性和相关性。此外,MPA可以动态结合各种探测原则,对能力进行多面向评估。这种模块化设计使研究人员能够灵活地应用任何原则组合,使评估范围与他们的研究重点对齐,并反映人类认知的多面向性。
我们使用MPA基于流行基准测试生成了新的评估集:MMLU、GSM8K、BBH和ARC-C。然后,我们对流行的LLMs进行了广泛的评估和分析,包括:GPT-4-Turbo、GPT-3.5-Turbo、Gemini-Pro、Llama2-70b-chat、Yi-34b-chat和Mixtral-8x7b-Instruct。我们的主要发现如下:
LLMs在我们的动态基准测试上的表现显著下降,这意味着当前基准测试可能存在数据污染(原文第4.2节)。提示工程只能带来边际改善(原文第4.4节)。 我们的多面向分析显示了三种基本能力之间的强相关性,其中语言理解和问题解决能力的相关性最强(原文第5.2节)。 我们观察到模型大小与能力相关性之间存在隐性的“马太效应”:较大的模型往往具有更强的相关性(原文第5.3节)。 在我们针对三种基本能力的细粒度分析中,LLMs展示了各种错误模式(原文第5.4节)。 MPA可以作为一种数据增强方法来提高LLMs的性能(原文第6节)。
DyVal 2: Meta Probing Agent
在设计动态评估协议中,存在两个关键挑战。首先,缺乏通用原则来指导知识、语言理解、推理和数学等多样化任务的评估样本生成过程。现有文献如DyVal采用了手动设计的原则(如生成DAG)来生成特定任务的样本,这些原则不能轻易扩展到其他场景。其次,生成评估样本的原则应该既细致又足够原子化,以便分析LLMs的多方面能力。我们希望评估能够反映大模型的各个方面的能力,并基于此进行更细致的相关性分析。
在本工作中,我们从心理测量学[6]中汲取灵感,使用LLMs作为代理来生成评估样本。具体而言,我们雇用LLMs作为代理(Agent),根据给定的评估样本自动生成新问题。这种基于代理的评估设计潜在地适用于大多数任务。更重要的是,心理测量理论将认知能力分类为三种基本能力:语言理解:用于理解和生成文本、问题解决:处理复杂问题和领域知识。
探测agent(probing agent)
probing agent旨在将给定问题转化为一个新问题,以评估LLMs在处理问题时所需的能力。probing过程遵循受心理测量学启发的原则,这些原则体现在精心设计的提示词中。与生成训练样本不同,probing agent最重要的标准之一是确保生成的问题在保持原始问题核心本质的同时,提供不同的视角,从而保持其正确性。在图1(c)中展示了一个例子,其中ARC的样本通过应用不同的原则转化为一个新问题。我们的实验中使用的提示词包含指导agent生成语义相似但结构不同问题的指令。
评判agent(judge agent)
尽管我们明确要求probing agent保持原始问题的完整性,但在某些情况下,probing agent可能会无意中改变问题的意义。因此,还需要设计judge agent,以提供对生成问题是否保持原始意图和信息内容的清晰且明确的评估。其提示词旨在指导LLMs比较原始问题和改写后的问题,确保其语义不变。具体来说,与传统评估方法可能使用各种度量不同,评判代理通过提示词以二元响应系统对抗性的方式运行。它仅返回“是”或“否”的判决,指示新问题是否与原始问题保持一致。在这个提示词中,评判代理需要分析原始问题和改写后问题的本质。其目标不仅仅是识别措辞上的表面相似或差异,而是深入探讨两个版本的问题在概念或知识领域上的一致性。
心理测量学原则
心理测量学原则指导我们如何探测对一个问题的理解。受心理测量理论的启发[6],我们的目标是评估LLMs的三种基本能力:语言理解、问题解决和领域知识。我们确定了五个关键原则,这些原则对应上述类别,如上表所示。这些原则包含了之前讨论的probing agent和judge agent,它们的功能根据具体应用的原则而有所不同。
语言理解 (Language Understanding)
语言理解评估的是处理、解释和生成文本的能力。为了评估这一能力,我们关注LLMs能否掌握各种语言表达的潜在意义,并在不同形式中保持其完整性。我们设计了三个原则来评估这一能力:
原则1:问题改写。这一原则侧重于在保持问题核心概念的同时改变其表述方式。这通过一个指导探测代理重构问题而不改变其潜在意义的提示词来实现。新问题挑战\llms 在理解层面上,确保它们能超越表面层次的识别,抓住问题的本质。 原则2:选项改写。这一原则与第一个相似,但适用于多项选择题的选项。它涉及以一种保持其原始意图和意义的方式重写提供的选项。注意:大多数基准采用QA风格。对于非QA基准,如GSM8K,选项相关的原则不适用。 原则3:选项排列[7]。这一原则仅涉及重新排列多项选择题中选项的顺序。它确定模型的理解是否受到正确答案位置的影响。由于可以通过编码实现,这一原则不需要特定的提示词。
问题解决 (Problem Solving)
问题解决指的是分析、推理和得出答案的能力。它涉及批判性思维,区分相关和无关的数据,并将知识应用于新情境下。此类别下的原则测试模型在处理复杂且通常具有细微差别的情境中的能力,以及其提供解决方案的熟练程度。需要注意的是,我们无法通过代理生成完全新颖的问题,因为无法保证其正确性。因此,我们设计了一个通用原则:
原则4:向问题中添加额外背景。该原则旨在向问题中引入额外的、非必要的背景信息,这些信息与主题相关,但并不直接有助于回答问题。提示词指导探测代理将额外背景无缝地整合到原始问题中。新问题评估LLMs能否过滤掉无关信息,集中精力解决问题的关键要素。
领域知识 (Domain Knowledge)
领域知识指的是模型在特定领域内的知识深度和准确性。拥有广泛理解一般概念的能力固然重要,但在特定情境下还需具备详细、精细的知识。这一类别测试模型在各种领域的专业知识、区分密切相关概念的能力,以及在特定情境中恰当地应用这些知识的能力。
原则5:添加新选项。这一原则侧重于在现有选项中添加一个额外的选项。新选项与问题相关,但不是正确答案,需要依靠领域知识来排除。
实验结果
实验设计
任务和数据集。我们选择了四个流行的数据集进行评估:MMLU、ARC-Challenge、GSM8K和 BigBench-Hard,涵盖了从知识密集型理解到复杂的数学和逻辑推理任务的广泛计算挑战。我们仅从BBH中选取了三个难度较大的任务:形式谬误(formal fallacies)、物体计数(object counting)和时间序列(temporal sequence)。我们使用它们的测试集生成新的评估样本。详细介绍见Appendix A。 评估的LLMs。我们评估了三个私有LLMs:GPT-4-turbo、GPT-3.5-Turbo和Gemini,以及三个开源模型:Llama2-70b、Yi-34b和 Mixtral-8x7b。为了确保标准化比较,我们将所有模型的生成温度设置为,生成长度为个token。对于在MMLU数据集上评测Gemini,我们将温度设置为,并省略了一些评估样本(大约20个样本),以避免由于Google的安全限制而导致的响应失败。 MPA中的Agents。我们利用GPT-4-turbo作为probing和judge agent,温度分别为和。每个代理的最大token生成数量设置为。虽然GPT-4-turbo作为主要代理,我们还在后续实验中探索了其他LLMs(GPT-3.5-Turbo和Gemini)作为代理的潜力(实验见原论文4.6节)。一个严峻的现实是,目前只有GPT-4能够生成问题并判断生成问题的质量。我们相信,随着领域的发展,会有更多更便宜的模型(如Claude 3和Gemini)能够胜任探测和评判角色,从而减少对单一模型API的依赖并增强可扩展性。
测评所使用的prompts详见Appendix B。我们的主要评估指标是准确率。
主要结论
在这一部分,我们应用了上述的所有五个原则来生成MMLU和ARC-Challenge的新评估样本。对于没有多项选择题的GSM8K和BBH,我们将探测限制在原则和。为了减少随机性,我们重复了三次评测。下图和下表展示了不同LLMs在原始和我们MPA生成的benchmark上的测试准确率。标准差大多在左右。
可以看到,所有LLMs在我们的探测基准上都表现出性能下降。尽管GPT4-Turbo表现出最严重的数据污染问题,它仍然是最强的模型。对于MMLU,GPT4-Turbo的表现比原始benchmark低%。此外,MMLU和ARC-Challenge的显著性能下降比GSM8K和BBH更为明显,这表明LLMs可能在知识基础的benchmark上表现出了“memorization”,即,仅仅记住了题目而并非真正的理解了题目,导致在MPA生成的benchmark上的表现大幅下降。
我们还展示了混淆矩阵,如图所示。该矩阵将响应分为四个不同的部分,有四个类别来评估模型响应:OT(原始正确)、PT(探测正确)、OF(原始错误)和PF(探测错误)。一个显著的观察是“OT/PF”实例的高频率,这表明可能存在特定数据集特征的数据污染。此外,开源模型的频率显著高于专有模型如GPT-4。这种差异表明,开源模型可能更容易受到数据污染的影响。
LLMs基本能力的多方面分析
MPA的一个优势是支持对LLMs的能力进行多方面分析,本节将对此进行讨论。
三种基本能力之间的相互关系
为了深入了解语言理解 (LU)、问题解决 (PS) 和领域知识 (DK) 之间的关系,我们根据属于某一能力的原则构建了三个probing benchmark,然后评估了LLMs在这些基准上的表现。结果呈现在下表中。
在获得不同LLMs在每个探测基准上的表现后,我们计算了皮尔逊相关系数、斯皮尔曼相关系数和肯德尔相关系数,结果如下表所示。显然,所有能力都高度相关,这与[6]的发现一致。此外,还可以观察到语言理解(LU)和问题解决(PS)的 相关性比其他能力组合的相关性要高。这两种能力的强相关性对未来训练和改进LLMs具有很大的潜力,即:需要同时提高起语言理解(LU)和问题解决(PS)能力。
对model size的分析
我们研究了模型大小对基本能力的影响。首先,下图(a)显示了Llama2的不同模型大小(7b、13b 和 70b)与模型准确率。可以观察到,每种能力都与模型大小呈正相关,几乎相同的斜率表明模型大小增加时,所有能力都会均等提高,以改善模型的整体表现。
其次,我们探讨了模型大小与不同能力之间相关性的关系。我们大致将模型分为三个大小:(1) 小型:Llama2-7b-chat, Llama2-13b-chat;(2) 中型:Yi-34b, Mixtral-8x7b, Llama2-70b-chat;以及 (3) Gemini-Pro, GPT-3.5-Turbo, GPT-4-Turbo。上图(b)中的结果暗示了一个隐性的“马太效应”:较大(通常更强大)的模型往往具有更强的基本能力之间的相关性。这一发现与关于通常智力因子的现有心理学理论相符[8]。这一发现可能有助于解释LLMs的涌现能力。
错误案例分析
我们对 LLMs 在三个基本能力方面的失败模式进行了深入分析。我们仔细挑选了 50 个实例,其中 GPT-4-Turbo 在原始 GSM8K 数据集中正确回答了原始问题,但在probing后的问题中回答错误。
语言理解:(1) 问题理解错误:GPT-4-Turbo 计算出正确答案但误解了问题的意图,导致回答错误。这种错误表明了对问题理解的差距。(2) 指令跟随错误:在此模式下,GPT-4-Turbo 得出正确答案但未能按照提示中指定的格式呈现,表明缺乏后续指令的遵循。 问题解决:在这里,GPT-4-Turbo 正确理解问题,但在计算过程中出错,导致最终答案错误。 领域知识:我们调查了 MMLU 中 57 个任务的主题错误分布(见图 9)。值得注意的是,专业法律领域的错误率最高,其次是道德情境和专业心理学,表明主要挑战存在于专业和伦理任务中。
MPA作为数据增强方法
尽管 MPA 的主要目的是评估 LLMs,但其生成的样本也可用作微调的增强数据。在本节中,我们使用 OpenAI API 进行了一项试点研究,对使用 MPA 生成的数据对 GPT-3.5-Turbo 进行了微调。微调数据包括两部分,第一部分是分别由 5 个原则生成的探测问题,第二部分是原始训练集。下图的结果显示,MPA 生成的数据可以提高 LLMs 的性能,MMLU 和 ARC-C 的平均提高了 2%。微调结果表明,MPA 不仅是一种评估协议,而且是一种通用的数据增强方法,可以提高LLMs的性能,为未来构建更强大的 LLMs提供了一种可能的方式。
总结与展望
本文介绍了MPA,一种动态评估协议,用于解决数据污染问题,并提供了受心理测量理论启发的 LLMs 三个关键认知能力的深入分析。我们的实验结果揭示了几个显著的见解。关键的是,MPA生成的样本不仅可以作为评估工具,还可以作为数据增强方法来改善 LLMs 的训练。然而我们的工作有几个局限性。(1) 任务和数据集:我们的关注范围限于四个数据集,涵盖了特定的主题范围。纳入更广泛的数据集和任务可能会带来关于 LLMs 能力的更全面的理解。(2) 探测基准的有效性:尽管MPA使用法judge agent来评估探测基准的一致性和准确性,我们在一些问题中观察到了与原问题的不一致性,这些问题偏离了它们原始的意图。这突出了进一步增强MPA稳健性和有效性的潜力。
[1] Zhu, Kaijie, et al. "Dyval: Graph-informed dynamic evaluation of large language models." ICLR 2024.
[2] Zečević, Matej, et al. "Causal parrots: Large language models may talk causality but are not causal." arXiv preprint arXiv:2308.13067 (2023).
[3] Berglund, Lukas, et al. "The Reversal Curse: LLMs trained on" A is B" fail to learn" B is A"." arXiv preprint arXiv:2309.12288 (2023).
[4] Magar, Inbal, and Roy Schwartz. "Data contamination: From memorization to exploitation." arXiv preprint arXiv:2203.08242 (2022).
[5] Zhu, Kaijie, et al. "PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts." arXiv preprint arXiv:2306.04528 (2023).
[6] Burnell, R., Hao, H., Conway, A. R., and Orallo, J. H. Revealing the structure of language model capabilities. arXiv preprint arXiv:2306.10062, 2023.
[7] Zong, Y., Yu, T., Zhao, B., Chavhan, R., and Hospedales, T. Fool your (vision and) language model with embarrassingly simple permutations. arXiv preprint arXiv:2310.01651, 2023.
[8] Spearman, C. ” general intelligence” objectively determined and measured. 1961.