对于 GPT-4 和 Claude-3.5 等大模型来说,它们已经给人类的生产生活带来了极大帮助。同时,也给这些大模型的能力上限留下了广阔的想象空间:即大模型究竟能完成多有挑战性的任务?
对于大模型能力一个直观的评估纬度便是推理能力。当前,对于推理能力的评估主要集中在精确推理,例如形式较为规范的数学推理和代码推理。
对于日常生活中广泛存在的含有模糊或不精确信息的推理问题当前的模型涉猎不足,例如“桌上有十个苹果,我拿走了一些,此时桌上还剩下多少苹果?”。
其中,一些(some)“大部分(most)”等通用量词(Generalized quantifier,以下简称“量词”)是一种常见的模糊表述方式。其特征是量词的强度通常是不精确的,例如“大部分”表示为一个超过一半的数量。
先前的工作曾通过引入模糊逻辑等方式,对于量词的强度进行建模。但是,这种方式往往基于少量数据并结合启发式的方法,无法拓展到解决复杂的具有现实意义的模糊推理问题。
基于这种研究现状,美国北卡罗来纳大学博士生李逸远和所在团队推出了首个基于现实数学问题的模糊推理基准“青蛙”(FRoG: Fuzzy Reasoning of Generalized Quantifiers)[1]。
图 | 李逸远(来源:李逸远)
日前,相关论文以《FROG:大语言模型中广义量词模糊推理的评估》(FROG:Evaluating Fuzzy Reasoning of Generalized Quantifiers in Large Language Models)为题发在 EMNLP(Empirical Methods in Natural Language Processing) 2024[1]。
李逸远是第一作者,上海交通大学刘鹏飞副教授担任通讯作者。
图 | 相关论文(来源:arXiv)
对于“青蛙”榜单来说,它通过将量词与来自小学数学问题集 GSM8K[2] 和留学研究生入学考试(GRE,Graduate Record Examination)以及经企管理研究生入学考试(GMAT,Graduate Management Admission Test)难度数学题的 MathQA[3] 中的问题相结合,构造出能被用于评测大模型模糊推理能力的问题。
通过对市面上比较常用的十几类大模型进行评测,课题组发现大模型在“青蛙”的模糊推理问题上展现出和精确推理不同的行为模式:
首先,一些常用的用于增强大模型推理能力的方法,例如对于数学或代码方面的专项训练或是一些对齐手段,对于提升模型的模糊推理能力并没有展现出一致的有效性。
图 | 模型对齐前后在“青蛙”上的性能(来源:arXiv)
其次,在大模型的发展中,人们的一个重要发现便是规模定律(Scaling Law)[4],即模型的测试损失与模型的训练数据量、参数量呈现相关关系,越大的训练数据和模型参数规模,往往带来更好的模型性能。因而扩大模型参数成为提升下游任务性能的一种常见手段。
而该团队观察到在“青蛙”上超过半数评测的大模型出现 inverse scaling effect(即随着模型参数量上升,任务性能反而下降)。
再次,对于“青蛙”中的问题,他们构造了保留问题形式和内容,但不包含量词的精准推理集作为模型性能下降的对比。
他们观察到模型在精确推理的场景下往往性能较优,并且遵循 scaling law,但是在模糊推理的场景下表现比较一般。
例如,Meta 发布的 Llama3-70B-Instruct 模型在精确推理场景下正确率可以超过 60%,但在模糊推理场景下正确率下降到不足 30%。
这说明对于提升模糊推理来说,或许不能简单地照搬在研究精确推理中得出的方法和结论,也说明领域内对于模糊推理的研究依旧处于方兴未艾的状态。
李逸远表示,一开始着手研究模糊推理问题的时候,他们发现首先需要一个评测榜单,只有这样才能了解到当前大模型模糊推理能力的现状。
与数学推理不同的是,对于如何完成模糊推理问题,目前尚没有广为接受的形式和定义。
因此他们所面临的第一个难点是:如何获取可用于模糊推理的推理数据。
虽然互联网上有着海量的语料,但是直接从中识别带有推理结果的模糊推理问题非常有挑战性。于是他们决定从改造现有的数学问题入手。
另一个问题是如何在推理问题中加入模糊信息,这涉及到首先对于模糊信息进行一定程度的量化。
为此,他们选择基于之前对于量词强度的研究 [6],以量词表达式的形式在数学推理中添加模糊信息。
同时,由于加入了模糊信息,导致推理的结果可能是不够精确的,那么应该用什么样的方式评测模糊推理能力?经过考虑之后,他们决定采用多项选择题的形式消解结果中的不确定性,通过让模型选择与结果最相近的量词选项评估其表现。
在模型评测的过程中他们发现了 inverse scaling effect,这时他们开始思考:大模型是如何进行模糊推理的,该如何直观地展现这个过程?
他们围绕过往用于增强模型推理能力的途径,来探寻这些途径是否对于模糊推理起到了帮助。
通过观察大模型的推理结果,发现了大模型不同于精准推理的推理方式,例如模型在思维链 [5] 的形式下如何对模糊的信息进行评估和分析。
图 | 模型进行模糊推理的样例(来源:arXiv)
该项研究,在探寻和提升模型推理能力方面有着应用前景,例如:
一方面,当大模型的应用场景从现实世界完整抽象出具体知识的推理问题(例如数学和编程问题)扩展到需要基于对于现实世界理解的推理问题时,预计本次成果将能帮助理解大模型具体的推理机制。同时,这一评测基准也为进一步全面提升模型的推理能力提供参考。
另一方面,通过对于模糊推理问题的研究,他们希望本次成果能为构建更加广阔的推理场景中的数据带来一定的启发。同时,对推理过程的引导(例如思维链)对于大模型推理能力非常重要。
对于模糊推理等复杂且推理过程难以形式化的问题,之前模型不能进行高质量的推理,所以该团队希望本次成果能够吸引人们关注对于这些问题推理过程的诱导。
后续,课题组还希望能够围绕如何建立用于提升模糊推理的训练方法, 如何让模型在推理中处理不能进行完全符号化运算的信息展开研究,也希望能够继续完善对于这类推理问题的评测手段。