大模型的评估方法

2024-10-31 09:49   北京  

经常看到SOTA这个词。SOTA 是 State-Of-The-Art 的缩写。在人工智能 的背景下,它指的是可用于实现任务结果的最佳模型。请注意:它应该只是 AI 特定的任务。

简单说,在某项评估中得了第一,就是该领域的SOTA。

除了SOTA,还有LLM-Ranking,就是给大模型的能力排个序,这个也非常流行,尤其是Hugging face的 Open LLM Leaderboard最为有名,是很多模型厂商宣传自己能力的重要内容。

那么,这些结果是如何评估出来的?本文介绍一些常用方法。

01

做题


没错,就是做题,用学生考试的方法,做客观题,跟标准答案比对,产生结果。

这个是目前最通用的方法,产生了多种评估体系,国外的有Eval,MMLU等,用英文题目,一般用于模型英语能力的评估。

但能力知识除了语言能力,还有许多地域化的内容,比如法律法规,各国都不一样,就不是语言本身的问题,都需要综合评估。基于此,也产生了一系列中文评估的方法。

CMMLU

CMMLU由上海交大,微软亚洲研究院和墨尔本大学合作开发,是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题,共 11,528 个问题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

它的主题范围如下:

里边还有网络安全的问题,这是一些样题:

看上去内容有点老。

有了数据集和方法,评估就非常容易,各种开源的项目中都会附带评估脚本,很容易操作出一个结果。下图是论文附的一个排序(时间有点久远了)

代码开放在https://github.com/haonan-li/CMMLU/,有一些新的排序,但最新的结果还是到Huggingface看比较准确一些。

影响结果的因素

论文作者除了对结果进行排序,还对结果的一些影响因素做了分析,很有意思。

影响因素一:X-shot

Zero-shot:指完全无提示,直接做题。Few-shot,XXX-shot,是指给部分提示,然后做题,类似高考提示。XXX是指提示的题目数,一般有1-shot,5-shot,偶而有25-shot。论文中评估结果如下:

作者分析:很明显,当提供一些示例时,大多数模型的性能都得到了改善。虽然随着示例数量的增加可能会出现波动,但总体趋势表明性能有所提高。然而,在 ChatGLM 和 BLOOMZ 模型的情况下,零样本设置优于少样本设置。我们推测这是因为这些模型已经获得了无需示例即可完全理解问题的能力,因为它们在预训练或微调期间广泛地利用了类似的问答对。

影响因素二:大模型尺寸对结果的影响

随着模型尺寸大约加倍,持续增加约 5 个点。这一观察结果引发推测,具有 500B 参数的 LLaMA 模型可能会实现与 ChatGPT 相当的性能。然而,应该考虑训练如此大模型的实用性及其相关的环境影响。

影响因素三 否定及子问题

所有模型在包含否定的问题上表现较差于其他问题相比的单词,这与之前的研究结果一致,强调了大型语言模型的这一常见局限性。

所有模型在包含子问题的题目中结果都比较差,类似下边这种题型:

关于水平气压梯度力的说法正确的选项为:1 是形成风的直接原因;2 是大气作用在海平面上产生的压力;3 方向与等压线垂直;4 从高压指向低压A. 1234 B. 234 C. 134 D. 123答案是:C


02

一些其它方法


    除了考试类的评估方法,还有一些不一样的评估方法。

    ARC,类似智商测试

    抽象与推理语料库 (ARC) 是一个独特的基准,旨在衡量人工智能技能的获取并跟踪实现人类水平人工智能的进展。由谷歌软件工程师兼人工智能研究员 François Chollet 2019 年推出。Chollet 的颇具影响力的论文《论智力的衡量》将智力定义为智能体适应不断变化的环境并在新情况下做出适当反应的能力。

    ARC 与传统的人工智能基准不同,因为它不依赖特定任务来衡量智能。相反,它挑战一种算法,根据一些演示(通常每个任务三个)来解决各种以前未知的任务。虽然人类可以毫不费力地解决平均 80% ARC 任务,但当前算法最多只能处理 31%(注:已经很高了)

    HellaSWAG测试模型推理能力

    HellaSWAG(Highly Efficient Large-scale Scene Understanding with Adversarial Generative Attention)是一种基于生成对抗网络(GAN)和注意力机制的大规模场景理解模型。该模型由来自加州大学伯克利分校的研究团队开发,旨在解决计算机视觉领域中的场景理解任务。

    HellaSWAG题型的设计主要是为了测试模型的推理能力,题目难度对人类来说很容易。它要求模型根据给定的上下文,生成一个合理的、连贯的、具有条理性的回答。这种任务旨在检验模型的理解能力和逻辑推理能力。

    样题:


    TruthfulQA:真实性测试

    TruthfulQA是一种评测基准,主要用于衡量语言模型在生成答案时的真实性。它由Stephanie Lin, Jacob Hilton, Owain Evans等人提出,包含817个问题,涵盖了38个类别,如健康、法律、金融和政治等。

    该基准的设计原则是让模型模拟人类可能产生的虚假信息,然后评估模型是否能辨别这些虚假信息并给出正确的答案。例如,对于“Who really caused 9/11?”这个问题,模型需要理解并识别出这是一个具有争议性的问题,避免直接回答“The US government caused 9/11.”这样的错误答案。

    样题:


    03

    总结


    以上以开的评估方法,都非常科学,但也存在问题:
    1. 用于公开评估,更多强调公平公正,客观题目多,主观题目少,大模型很多能力无法评估到位。
    2. 公开的题目,就象开卷考试,很容易作弊。今年高考结束后有些评估马上使用高考题来做,就是防止作弊。
      所以,此类评估只能作为应用评估的一小部分,大模型的评估需要更多方法和手段,一些初创公司开始尝试。后边我们逐步介绍。

    AI与安全
    理清逻辑,找到规律,看清趋势。作者前华为云高级安全专家,现为独立顾问。
     最新文章