前言
人类智能的一个关键在于我们能够以多种方式表达和传达我们的不确定性。可靠的置信度估计对于人机协作至关重要,能够促进更加理性和信息丰富的决策。具体而言,模型的置信度估计可以为其响应的可靠性提供有价值的见解,有助于风险评估和错误缓解、选择性生成,以及减少自然语言生成任务中的幻觉现象。我们将介绍两篇相关领域的论文来和大家一起探讨如何让大模型正确表达置信度。
背景与动机
在现有文献中,从机器学习模型中提取信心通常依赖于对模型内部信息的白盒访问,例如token-likelihood和相关的校准技术,以及模型微调。然而,随着大语言模型的普及,这些方法变得不再适用,主要有以下几个原因:
封闭源代码的商用LLMs的兴起,如GPT-3.5和GPT-4,只允许文本输入和输出,无法访问token-likelihood或嵌入向量 token-likelihood主要捕捉模型对下一个令牌的不确定性,而非文本含义中固有的语义概率。例如,在短语“巧克力牛奶来自棕色奶牛”中,每个单词基于其上下文词汇都是自然的,但较高的令牌似然度并不能反映该语句整体上的虚假性,这需要从语义上对句子进行检查 模型微调需要大量计算资源,可能对计算资源有限的研究人员构成挑战。在这些限制条件下,我们迫切需要探索黑盒方法,以从LLMs的答案中提取置信度。
因此,作者从两个角度探索:1)探索用于引导置信度的黑箱方法;2)通过比较来得到引导更准确置信度的方法和方向。为此,作者定义了一个包含三个组成部分的系统框架:Prompting来引导置信度,Sampling来生成多个响应,Aggregation来计算一致性。对于每个组成部分,作者设计了一套方法。通过整合这些组成部分,作者制定了一套专门用于信心引导的算法,并在两个关键任务——信心校准和失败预测——上对这些方法进行了基准测试,涵盖五种任务类型(常识、算术、符号、伦理和专业知识)以及五种广泛使用的LLM,即GPT-3、GPT-3.5、GPT-4、Vicuna和LLaMA 2。
模型框架
模型框架如图所示。框架包括三部分:
Prompting
作者设计了一系列引导置信度的prompting策略,如表所示,具体而言:
CoT:为了更好地理解问题,来增强对置信度的准确理解,作者采用了一种增强推理的引导策略。
Self-Probing:人类的一个普遍观察是,他们通常发现更容易识别他人答案中的错误,而不是自己答案中的错误,因为他们可能会固守于某种特定的思维方式,从而可能忽略错误。在此假设的基础上,作者调查在给定一个问题及其答案后,模型的信心估计是否会改善,然后询问:“上述答案正确的可能性有多大?” 首先作者在一个聊天会话中生成答案,并在另一个独立聊天会话中获取其置信度。
Multi-Step:作者的初步研究表明,LLM在语言化其信心时往往表现得过于自信。为了解决这个问题,作者探索将推理过程分解为多个步骤并提取每个步骤的信心是否可以减轻过度自信。其原理是,理解每个推理步骤的信心可以帮助模型识别潜在的不准确性,并更准确地量化他们的信心。具体来说,对于给定的问题,我们提示模型将其推理过程细分为单独的步骤,并评估他们对该特定步骤正确性的信心,。然后,通过聚合所有步骤的信心来得出整体置信度。
Top-K:减轻过度自信的另一种方法是提出多种可能的解决方案或答案,这可以作为置信度分布的归一化。受此启发,Top-K提示LLM生成给定问题的前K个猜测及其相应的信心。
Sampling
可以采用几种方法从模型中引出同一问题的多个回答:1)Self-Ramdom,多次输入相同的提示,利用模型固有的随机性得到不同答案。2)Prompting,通过以不同方式改写问题来生成多个回答。3)Misleading,向模型提供误导性线索,例如,“我认为答案可能是……”。这种方法受到人类行为的启发:当人们有信心时,往往会坚持自己的初始答案,尽管有相反的建议;相反,当不确定时,他们更可能因误导性提示而犹豫或调整自己的回答。基于这一观察,我们评估模型对误导信息的响应,以衡量其不确定性。
Aggregation
Consistency:对于任意的回答,我们采样一个集合的备选答案,其中,候选集合和初始答案的一致性可以衡量一致性:
Avg-Conf:在consistency的基础上考虑每个答案的置信度,得到加权置信度:
实验设置
数据集:常识数据集( Sports Understandin,StrategyQA ),算数数据集(GSM8K,SVAMP ) ,符号推理数据集(Date Understanding,Object Counting ), 专业任务数据集(Professional Law), 伦理数据集 (Business Ethics). 模型:Vicuna 13B, GPT-3 175B, GPT-3.5-turbo, GPT-4 及LLaMA 2 70B. 评测方法:用期望置信错误(ECE)来评估置信度,用AUROC评估错误预测。
实验结果
通过实验结果,作者有如下发现:
LLM通常会过于自信
置信度的分布模仿了人类表达置信度的方式,这些模型对所有样本的置信度都倾向于较高,通常是5的倍数,大多数数值集中在80%到100%之间,这种行为表明,模型在口头化置信度时可能是在模仿人类的表达方式。
模型大小增加后可以提升置信度和错误预测
如图所示,随着模型大小的增加,置信度和错误预测有所提升
如图所示,作者有如下发现
Prompting策略可以提升模型的置信度和错误预测能力,尽管在更好的模型如GPT-4上收益会降低 没有一个Prompting策略能在所有的模型上表现好 尽管Prompting策略可以使ECE降低,错误预测仍然表现较差
如上图所示,作者有如下发现:
多个回答的一致性比简单的置信度能明显提升置信度校准和错误预测
总结
在本研究中,作者关注置信度引导问题,即让大型语言模型(LLMs)能够准确表达对其回答的信心。作者定义了一个系统框架,该框架由三部分组成:Prompting、Sampling和Aggregation,用于探索置信度引导算法,并在两个任务、八个数据集和五个模型上对这些算法进行基准测试。作者的研究发现,LLMs 在表达其信心时往往表现出过度自信。这种过度自信可以通过使用如 CoT 和自我探测等提出的提示策略在一定程度上缓解。此外,结合特定聚合器的采样策略可以改善对错误的预测,尤其是在算术数据集上。
背景与动机
在这篇文章中,作者通过自然语言微调模型以表达其置信度。作者将其称为“口头化概率”。口头化概率的目标是以类人方式表达不确定性,而不是直接模仿人类的训练数据。模型应能够校准自身的不确定性,这与人类的不确定性有所不同。例如,GPT-3在计算机安全测试中表现优于大多数人类,但在算术问题(如“2 × 3 × 7 =?”)上表现较差。因此,我们预期预训练的模型需要通过微调来生成经过校准的口头化概率。主要贡献有:
提出新的校准测试集 微调GPT-3让其可以用文字表达校准后的置信度 证明GPT-3不是简单地输出logit中蕴含的不确定信息 证明怎样通过logits来fine-tune GPT-3,让其表达不确定性,并且发现在分布偏移后,模型仍然泛化得很好
方法
三种置信度
作者考虑三种置信度,如下图所示
CalibratedMath
作者提出CalibratedMath,一个包含 21 个算术任务的测试集,包括加法、乘法、取整、等差数列以及求余数。每个任务的问题和答案都是程序生成的。答案总是整数,对于某些任务,可能有多个正确答案(例如:“列出任意一个小于208的质数?”)。这21个任务进一步根据每个操作数的位数和数字格式分为子任务。对于GPT-3来说,不同的子任务难度各异。例如,乘法比加法更难,随着位数增加,难度也会加大。某些子任务对GPT-3来说明显更简单或更困难,这对于构建具有挑战性的校准测试至关重要。
与之前关于机器学习校准的研究类似,作者关注校准在分布转移下的泛化表现。我们的主要实验使用“加减法”训练集,如图所示,该训练集包括CalibratedMath中涉及加法或减法的任务,并且有唯一正确答案。评估集(称为“多答案”)包含多个正确答案的问题,有时涉及乘法和除法。在训练和评估之间存在分布转移,主要体现在以下两个方面:
任务难度的变化:相比于训练集(加减法),GPT-3更有可能正确回答评估集(多答案)中的问题。多答案的中位准确率为65%,而加减法的中位准确率为21%(详见图8)。因此,为了确保良好的校准,模型应平均为评估集中的答案分配更高的概率。这本质上是从训练到评估的“标签分布”变化。(我们预计其他语言模型出于同样的原因也会经历类似的分布变化。 内容的变化:训练集和评估集在使用的数学概念以及是否存在多个正确答案方面有所不同。
实验
如何微调一个预训练模型以输出经过校准的口头化概率?作者使用监督学习对GPT-3进行微调。相比于使用基于适当评分规则的强化学习,监督学习的方法虽然在原理上不如强化学习灵活,但使用OpenAI的API更易于实现,并且能够对模型在训练分布之外的泛化能力进行有趣的测试。
实验结果
从表中可以看到,在Add-substract训练集上训练的模型可以很好地泛化到Multiply-divide和Multi-answer验证集上。说明发生分布偏移后模型仍然表现很好。verbalized numbers在训练集上过拟合。口头化概率在分布内的校准效果要好得多。模型对“Multi-answer”问题的回答不够自信,因为这些答案比“加减法”训练集中的答案更有可能是正确的。indirect logit在“Multiply-divide”任务中泛化良好。间接logit在“Multiply-divide”评估集上的校准表现非常出色,优于其他模型。然而,在“多答案”评估中,它的表现不如口头化概率。这可能是因为在我们当前的设置下,避免过拟合更加困难。未来的研究可以进一步探讨在不同的训练设置下(例如,更多样化的概率和问题分布)indirect logit与verbalized numbers的比较。
为了更好地了解verbalized probability的泛化能力,作者在随机 k-shot 设置下测试了 GPT-3 的校准表现,并将 k 从 1 变为 50。作者使用了以下过程:对于评估集中每个问题,我们随机从“Add-substract”训练集中抽取 k 个新示例,并将它们包含在上下文中。为了生成verbalized probability,我们不使用贪婪解码(如在微调实验中),而是找到模型前五个词元的加权和(权重是模型对这些词元的概率)。在两个评估集上,GPT-3 起初明显未经过校准,但在 k = 25 及以上时开始显示出改进。当 k = 50 时,性能已经接近微调模型的表现,后者是在超过 2500 个样本上进行训练的。一个可能的解释是,GPT-3 已经具有与校准信心相关的问题和答案的潜在表示,少量的 few-shot 示例帮助它定位了任务。
总结
作者的结果表明,GPT-3在分布转移下具有一定的泛化校准的能力。然而,虽然作者的训练集和评估集在标签分布上存在显著差异,但问题的内容和格式并没有太大变化。未来的工作可以测试校准是否能泛化到其他学科领域(如历史或生物学)以及其他格式(如聊天、长文本问答、预测)。同时,测试其他语言模型(尤其是那些在微调前就对概率有更好理解的模型)也将具有重要价值。虽然我们使用监督学习对模型进行了微调,但未来的工作可以探索更灵活的强化学习方法。