[EMNLP 2024] PORTIA - 大模型评估器位置偏差的修复

文摘   2024-09-26 21:02   四川  
导读
本文是对发表于EMNLP 2024的论文《Split and Merge: Aligning Position Biases in LLM-based Evaluators》的解读。论文作者来自HKUST, HITSZ, NTU.

简述(太长不看版)
大型语言模型(LLM)作为自动评估器在进行pair-wise比较时,经常会出现位置偏差问题[1],即模型倾向于选择第一个或第二个答案,而忽略了内容本身。为了解决这一问题,我们设计了一个名为 PORTIA 的系统,通过分割和合并策略,在无需重新训练的情况下有效校准了位置偏差,提升了评估的一致性和准确性。

背景介绍
随着人工智能技术的迅猛发展,LLM在各种任务上展现出了卓越的能力,有时甚至超过了人类的表现。然而,评估LLM生成的答案的质量却是一个挑战。现有的评估方法,如BLEU等,虽然能够量化与参考文本的标记级别的重叠,但在评估语义质量方面却存在不足。尽管人工评估可以提供更准确、更有价值的反馈,通常被认为是“金标准”,但它们通常成本高昂、耗时且难以扩展。
目前,社区大量采用使用GPT-4、Claude等强大的LLM来进行评估,希望它们能够提供一种既可靠又高效的自动评估方法[1,2]。然而,这种做法却忽视了这些强大的LLM评估器本身可能引入新的位置偏差(position bias)问题。具体来说,LLM评估器在进行pair-wise比较时可能会无意识地偏好第一个或第二个答案,而忽略了答案的实际内容,这种现象称为位置偏差。
位置偏差的存在严重影响了评估结果的公正性和准确性。例如,即使两个答案在内容上几乎没有差异,LLM评估器也可能因为位置偏差而选择其中一个作为更好的答案。这不仅损害了评估的可信度,也影响了基于这些评估结果进行决策的可靠性。

图1. Position Bias 示意图

PORTIA系统设计
为了解决LLM评估器的位置偏差问题,我们提出了PORTIA系统。PORTIA的核心思想是将答案分割成多个段落,考虑长度和语义,然后将它们重新合并成一个单一的提示,供LLM评估。

关键设计考虑
1.内容保留:确保分割后的答案包含原始答案中的所有信息。
2.顺序保留:保持原始答案中的信息呈现顺序。
3.资源效率:最小化分割过程中的计算成本。

核心分割算法
PORTIA首先在句子边界处确定可能的分割位置,然后进行长度对齐,将每个答案分割成大致相等的段落。如果长度对齐不能产生一致的裁决,则进一步进行迭代的语义对齐。(具体算法流程可见论文)
图2. PORTIA 算法示意图. K=2. (注: 不要求两个候选答案长度相等)

实验结果
通过在11,520个答案对上的广泛实验,我们证明了PORTIA显著提高了所有测试模型的一致性比率,平均相对提高了47.46%。此外,PORTIA还使GPT-3.5在与人类评估者一致性方面与GPT-4相当,并将GPT-4的一致性比率提高到了98%。详细的分析可以参考论文4.1/4.2节以及 附录B. 相关的cost 分析可以参考4.3节. 这里不再赘述.
图3. PORTIA 一致率 实验结果
为了进一步研究PORTIA的可扩展性, 我们(1) 额外收集生成了一批新问题和对应的答案.  (2) 在更新的model (gpt-4o)上也进行了实验. 得到了类似的结论.

Ablation Study
为了验证PORTIA系统中不同组件对提高评估一致性的具体贡献,我们进行了消融研究(Ablation Study)。在这项研究中,我们分别移除了语义对齐(Semantic Alignment)和长度对齐(Length Alignment)两个关键组件,并观察了这些变化对评估结果的影响。


实验设置
我们选择了五种不同的LLM评估器,包括GPT-3.5、GPT-4、Claude2、Qwen和Chatglm2。对于每种评估器,我们分别在包含和不包含语义对齐、长度对齐的情况下,对11,520个答案对进行了评估。我们使用“Fixed Coverage”这一指标来量化消融研究的结果,即在原始评估中不一致但在消融实验中变得一致的答案对的百分比。
主要发现
1.语义对齐的重要性:移除语义对齐后,我们观察到在所有评估器中一致性比率都有所下降。特别是在基于Likert评分的比较形式中,语义对齐对提高一致性的贡献更为显著。这表明,当评估器需要在标准化的类别评分中进行精确的语义判断时,语义对齐尤为重要。
2.长度对齐的效果:移除长度对齐后,我们也看到了一致性比率的下降,尽管下降幅度不如移除语义对齐那么显著。这表明,虽然长度对齐对于减少位置偏差和提高评估一致性有一定作用,但其影响相对有限。
3.不同评估器的敏感性:不同的LLM评估器对于消融实验的反应各不相同。例如,GPT-4在移除语义对齐后一致性比率的下降幅度较小,这可能与其已经较好的一致性表现有关。而Qwen在移除长度对齐后一致性比率的下降幅度较大,表明其对长度对齐的依赖性更强。

PORTIA的成功不仅在于它提高了LLM评估器的一致性和性能,而且还在于它在保持成本效率的同时实现了这一点。此外,通过用户研究,我们发现PORTIA优化的评估器与人类评估者之间的一致性得到了增强。


总结
这项研究不仅提高了LLM-as-a-judge的质量和效率,而且为整个AI社区带来了实质性的好处。我们同时希望PORTIA能够成为评估AI系统时的有力工具,帮助研究人员和开发者构建更公正、更一致的评估流程。

[1] Zheng, Lianmin, et al. "Judging llm-as-a-judge with mt-bench and chatbot arena." Advances in Neural Information Processing Systems 36 (2024).
[2] Wang, Peiyi, et al. "Large language models are not fair evaluators." arXiv preprint arXiv:2305.17926 (2023).



快客硬核AI
“速递AI前沿,解读智能科技”
 最新文章