来源:Findings of the Association for Computational Linguistics: EMNLP 2024
链接:https://aclanthology.org/2024.findings-emnlp.363/
1 内容概要
因果推断在科学研究和市场决策中至关重要,它帮助我们理解因果关系并预测结果。因果图通过节点和边表示变量及其因果关系,因其直观性和简洁性,被广泛应用于因果关系的研究。
本文旨在探讨语言模型是否能够理解因果图,并提出了一个评估框架和CLEAR基准,设定了四个评估标准:超越随机猜测的表现、对问题类型的鲁棒性、因果定义的正确利用,以及任务依赖性对表现的影响。这是首次系统评估语言模型理解因果图的能力。
研究发现,语言模型在处理因果图任务时表现不均,可以初步理解因果关系,但对问题类型敏感,且在任务依赖性上表现出异质性。
2 实验设置
为了评估语言模型对因果图的理解能力,我们开发了一个具有三个级别的评估体系,它包含 20 个精心设计的因果图任务,如图2 所示:
基本任务:掌握这些概念是理解任何一般图的前提; 中级任务:这些任务代表因果图中最常见的特征,因果图推理在很大程度上依赖于对这些基本问题的理解; 高级任务:这些任务呈现复杂的高级挑战,是理解因果图的核心。
实线箭头表示同一层级内任务之间的依赖关系,而虚线箭头则表示不同层级任务之间的依赖关系。
为了进行评估因果图任务,我们需要随机生成相应的因果图,它们的节点数量被限定于 4 个到 9 个之间,同时涉及三种边:无向边、有向边和双向边。
在给定因果图的基础上,我们为 20 种因果图任务生成了相应的题目及其正确答案,如下图所示:
其中,每个任务的问题种类分布情况,如下表所示:
这些问题类型可分为两类主观问题(即“找全部”和“找一个”)和四类客观问题(即“多少”、“是或否”、“选择”和“存在”),为语言模型能否理解因果图提供了深入的评估。
3 实验结果
下图展示了 6 个主流语言模型在 20 种因果图任务上的表现,图中的每个单元格代表一个模型的准确率,最右列显示了模型的平均准确率。
从上图我们可以得出以下结论:
所有语言模型均超过随机猜测的评分,表明它们对因果图有基本理解,但仍然有限,表现最好的模型 GPT-4 的准确率仅为60.5%,其余模型约为 40.0%;
语言模型对因果图基本元素的识别有良好的掌握。所有模型在单节点和单边任务上的准确率均超过 70.0%,而 GPT-4 在单节点任务上甚至达到了 100.0%。
我们把 20 种任务聚合成 3 个层级,尝试以更宏观角度来观察语言模型的表现,结果如下图所示,它展示了模型在 3 个层级上的平均准确率:
我们可以发现:
语言模型在基本任务层级中表现优异,所有模型的准确率均超过 50.0%,最高达到 74.3%;相反,其余两个层级的平均准确率大多未能超过 40.0%;
除 GPT-4 外,其他五个模型的表现相似。
为了评估语言模型的鲁棒性,在上面的实验中我们考虑了六种不同的问题类型,这里进一步展示每个语言模型对单个问题类型的平均准确率,结果如下图所示:
我们得出以下结论:
语言模型对于因果图任务的表现会因为问题类型而出现显著区别。所有模型在是或否(YN)和存在(EX)问题类型上表现优异,但在找全部(FA)、找一个(FO)和多少(HM)问题上表现不佳。
如果评估仅依赖有限的问题类型,模型对因果图的理解可能被人为夸大。如果我们只在选择(CS)、是或否(YN)和存在(EX)问题上评估语言模型。
4 衍生实验
上述实验都是基于直接计算模型输出的准确率,为了更加丰富,我们利用 Captum 工具包从反事实的角度探讨语言模型对因果图的理解,如下图所示:
简单来说,我们首先对 Llama2-Chat-70B 和 Mixtral-8×7B 进行咨询来获取各自的相应。而我们的主要关注点是 “Z→A” 对模型响应的影响,同时我们也怀疑 “X→R” 和 “M→Z” 对模型响应的影响,因此使用反事实扰动分析这三种陈述对模型的影响。
下图展示了反事实扰动分析的结果,结果表明模型对因果图的理解与其聚焦于图中关键信息的能力之间存在强关联:
从上图可以看到:
Mixtral-8×7B 不仅给出了正确响应 “1”,同时 “Z→A” 在反事实扰动分析中被判定为最积极因素,这说明了 Mixtral-8×7B 在推理过程中正确识别和利用相关信息。
而 Llama2-Chat-70B 不仅给出了错误响应 “two”,同时 “Z→A” 对其答案也没有显著正面影响,表明 Llama2-Chat-70B 未能识别关键信息。
5 实验的局限
虽然我们努力设计因果图理解的评估框架、并构建了基准并对六个模型进行了全面实验,但是工作依旧存在着一些局限性:
由于时间和预算限制,我们的基准仅考虑了英语;
语言模型在因果图任务出现什么样的表现才能叫作真正的理解,这仍需进一步探讨;
评估大型视觉语言模型的理解能力可能需要考虑更广泛的因素。