大型语言模型(Large language models, LLMs)因其在学术界和工业界展现出前所未有的性能而备受青睐。然而,随着LLMs在研究和实际应用中的广泛使用,对其进行有效评估变得愈发重要。近期已有多篇论文围绕大模型的评估进行研究,但尚未有文章对评估的方法、数据、挑战等进行完整的梳理。我们介绍大模型评估领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》。该论文一共调研了「219」篇文献,以「评估对象 (what to evaluate)」 、「评估领域 (where to evaluate)」 、「评估方法 (How to evaluate)」 和目前的「评估挑战」等几大方面对大模型的评估进进行了详细的梳理和总结。我们的目标是增强对大模型当前状态的理解,阐明它们的优势和局限性,并为其未来发展提供见解。我们持续维护大模型评估的开源项目以促进此领域的发展。
点击“阅读原文”,直达本团队在大模型评测方面的工作汇总。
论文链接:https://arxiv.2307.03109 开源链接:https://github.com/MLGroupJLU/LLM-eval-survey 作者单位:吉林大学、微软亚洲研究院、中科院自动化所等
为什么要研究大模型评测?
通俗来讲,大模型也是一个能力很强的函数,与之前的机器学习模型并无本质不同。那么,为什么要研究大模型的评测?大模型评测跟以前的机器学习模型评测有何不同?
首先,研究评测可以「帮助我们更好地理解大模型的长处和短处」。尽管多数研究表明大模型在诸多通用任务上已达到类人或超过人的水平,但仍然有很多研究在质疑其能力来源是否为对训练数据集的记忆。如,人们发现,当只给大模型输入LeetCode题目编号而不给任何信息的时候,大模型居然也能够正确输出答案,这显然是训练数据被污染了; 其次,研究评测可以「更好地为人与大模型的协同交互提供指导和帮助」。大模型的服务对象终究是人,那么为了更好地进行人机交互新范式的设计、我们便有必要对其各方面能力进行全面了解和评估。如,我们最近的研究工作PromptBench: 首个大语言模型提示鲁棒性的评测基准便详细地评测了大模型在“指令理解”方面的鲁棒性,结论是其普遍容易受到干扰、不够鲁棒,这便启发我们从prompt层面来加强系统的容错能力; 最后,研究评测可以「更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险」。我们知道,大模型一直在不断进化,其能力也越来越强。那么,通过合理科学的评测机制的设计,我们能否用演化的角度来评测其能力?如何提前预知其可能的风险?这都是重要的研究内容。
因此,研究大模型的评测具有十分重要的意义。
综述主要内容
自ChatGPT去2022年10月问世以为,关于大模型的研究变得炙手可热起来。本文我们探讨大模型研究的一个重要方向:「模型评估」。根据我们的不完全统计(见下图),大模型的评估方面发表的文章呈上升趋势,越来越多的研究着眼于设计更科学、更好度量、更准确的评估方式来对大模型的能力进行更深入的了解。
本文是对大型语言模型(LLMs)评估的首次全面综述。如研究框架图所示,我们主要从三个方面对现有工作进行了探索:
评估内容 (What to evaluate),对海量的LLMs评估任务进行分类并总结评估结果; 评估领域 (Where to evaluate),对LLMs评估常用的数据集和基准进行了总结; 评估方法 (How to evaluate),总结了目前流行的两种LLMs评估方法。
这三个维度对于大模型的评估是不可或缺的。在三个维度之后,我们对其内容进行了总结。最后,我们讨论了大模型评估时可能面临的重大挑战,为今后的研究提供建议。
评估什么
本文的主要目的是总结和讨论目前在大型语言模型上的评估工作。在评估LLMs的性能时,选择合适的任务和领域对于展示它们的表现、优势和劣势至关重要。为了更清晰地展示LLMs的能力水平,本文将现有的任务划分为以下7个不同的类别:
自然语言处理:包括自然语言理解、推理、自然语言生成和多语言任务。 鲁棒性、伦理、偏见和真实性。 医学应用:包括医学问答、医学考试、医学教育和医学助手。 社会科学。 自然科学与工程:包括数学、通用科学和工程。 代理应用:使用LLMs作为代理。 其他应用。
这样的分类方式能够更好地展示LLMs在各领域的表现。需要注意的是,几个NLP领域有交叉点,因此我们的这些领域的分类只是一种可能的分类方式。
在哪评估
我们通过深入探讨评估基准来回答在哪里评估的问题,如下图所示,评估基准主要分为通用基准(General benchmarks)和具体基准(Specific benchmarks)。
随着LLMs基准测试的不断发展,目前已有许多受欢迎的评估基准。在下表中,我们总结了19个流行的基准测试,每个基准关注不同的方面和评估标准,为各自的领域提供了有价值的贡献。
如何评估
在本节中,我们介绍了两种常用的评估方法:自动评估和人工评估。这两种方法在评估语言模型和机器翻译等任务时起着重要的作用。自动评估方法基于计算机算法和自动生成的指标,能够快速且高效地评估模型的性能。而人工评估则侧重于人类专家的主观判断和质量评估,能够提供更深入、细致的分析和意见。了解和掌握这两种评估方法对准确评估和改进语言模型的能力至关重要。
总结
在这一部分,总结了LLMs在不同任务中的成功和失败案例。
「LLMs能够在哪些方面表现出色?」
LLMs在生成文本方面展现出熟练度,能够产生流畅且准确的语言表达。 LLMs在语言理解方面表现出色,能够进行情感分析和文本分类等任务。 LLMs具备强大的语境理解能力,能够生成与输入一致的连贯回答。 LLMs在多个自然语言处理任务中表现出令人称赞的性能,包括机器翻译、文本生成和问答任务。
「LLMs在什么情况下可能会失败?」
LLMs在生成过程中可能会表现出偏差和不准确性,导致产生有偏差的输出。 LLMs在理解复杂的逻辑和推理任务方面能力有限,在复杂的环境中经常出现混乱或错误。 LLMs在处理大量数据集和长期记忆方面面临限制,这可能在处理冗长的文本和涉及长期依赖的任务方面带来挑战。 LLMs在整合实时或动态信息方面存在局限性,使得它们不太适合需要最新知识或快速适应变化环境的任务。 LLMs对提示非常敏感,尤其是敌对提示,这会触发新的评估和算法,以提高其鲁棒性。 在文本摘要领域,可以观察到LLMs可能在特定的评估指标上表现出低于标准的性能,这可能归因于那些特定指标的内在限制或不足。 LLMs在反事实任务中不能取得令人满意的表现。
重大挑战
评估作为一门新学科:我们对大模型评估的总结启发我们重新设计了许多方面。在本节中,我们将介绍以下7个重大挑战。
「设计AGI基准测试」。什么是可靠、可信任、可计算的能正确衡量AGI任务的评估指标? 「设计AGI基准完成行为评估」。除去标准任务之外,如何衡量AGI在其他任务、如机器人交互中的表现? 「稳健性评估」。目前的大模型对输入的prompt非常不鲁棒,如何构建更好的鲁棒性评估准则? 「动态演化评估」。大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评估方法? 「可信赖的评估」。如何保证所设计的评估准则是可信任的? 「支持所有大模型任务的统一评估」。大模型的评估并不是终点、如何将评估方案与大模型有关的下游任务进行融合? 「超越单纯的评估:大模型的增强」。评估出大模型的优缺点之后,如何开发新的算法来增强其某方面的表现?
我们的重点是,「评估应该被视为推动LLMs和其他人工智能模型成功的基本学科。」现有的研究方案不足以对LLMs进行全面的评估,这可能为未来的LLMs评估研究带来新的机遇。
结论
评估具有深远的意义,在人工智能模型的发展中变得势在必行,尤其是在LLMs的背景下。本文首次从评估什么、如何评估、在哪里评估三个方面对LLMs的评估进行了全面的概述。通过封装评估任务、协议和基准,我们的目标是增强对LLMs当前状态的理解,阐明它们的优势和局限性,并为未来LLMs的发展提供见解。
我们的调查显示,目前的LLMs在许多任务中都存在一定的局限性,尤其是推理和健壮性任务。与此同时,对当代评估系统进行调整和发展的需求依然明显,以确保对LLMs的内在能力和局限性进行准确评估。最后, 我们确定了未来研究应该解决的几个重大挑战,并希望LLMs能够逐步提高他们对人类的服务。