论文浅尝｜大语言模型能否可以真正理解因果图

文摘 2024-11-21 20:05 日本

来源：Findings of the Association for Computational Linguistics: EMNLP 2024
链接：https://aclanthology.org/2024.findings-emnlp.363/

1 内容概要

因果推断在科学研究和市场决策中至关重要，它帮助我们理解因果关系并预测结果。因果图通过节点和边表示变量及其因果关系，因其直观性和简洁性，被广泛应用于因果关系的研究。

本文旨在探讨语言模型是否能够理解因果图，并提出了一个评估框架和CLEAR基准，设定了四个评估标准：超越随机猜测的表现、对问题类型的鲁棒性、因果定义的正确利用，以及任务依赖性对表现的影响。这是首次系统评估语言模型理解因果图的能力。

研究发现，语言模型在处理因果图任务时表现不均，可以初步理解因果关系，但对问题类型敏感，且在任务依赖性上表现出异质性。

图1：CLEAR 基准中，6 个主流语言模型在 20 种因果图任务的表现

2 实验设置

为了评估语言模型对因果图的理解能力，我们开发了一个具有三个级别的评估体系，它包含 20 个精心设计的因果图任务，如图2 所示：

图2：CLEAR中任务的层级和依赖关系

基本任务：掌握这些概念是理解任何一般图的前提；
中级任务：这些任务代表因果图中最常见的特征，因果图推理在很大程度上依赖于对这些基本问题的理解；
高级任务：这些任务呈现复杂的高级挑战，是理解因果图的核心。

实线箭头表示同一层级内任务之间的依赖关系，而虚线箭头则表示不同层级任务之间的依赖关系。

为了进行评估因果图任务，我们需要随机生成相应的因果图，它们的节点数量被限定于 4 个到 9 个之间，同时涉及三种边：无向边、有向边和双向边。

在给定因果图的基础上，我们为 20 种因果图任务生成了相应的题目及其正确答案，如下图所示：

其中，每个任务的问题种类分布情况，如下表所示：

这些问题类型可分为两类主观问题（即“找全部”和“找一个”）和四类客观问题（即“多少”、“是或否”、“选择”和“存在”），为语言模型能否理解因果图提供了深入的评估。

3 实验结果

下图展示了 6 个主流语言模型在 20 种因果图任务上的表现，图中的每个单元格代表一个模型的准确率，最右列显示了模型的平均准确率。

从上图我们可以得出以下结论：

所有语言模型均超过随机猜测的评分，表明它们对因果图有基本理解，但仍然有限，表现最好的模型 GPT-4 的准确率仅为60.5%，其余模型约为 40.0%；
语言模型对因果图基本元素的识别有良好的掌握。所有模型在单节点和单边任务上的准确率均超过 70.0%，而 GPT-4 在单节点任务上甚至达到了 100.0%。

我们把 20 种任务聚合成 3 个层级，尝试以更宏观角度来观察语言模型的表现，结果如下图所示，它展示了模型在 3 个层级上的平均准确率：

我们可以发现：

语言模型在基本任务层级中表现优异，所有模型的准确率均超过 50.0%，最高达到 74.3%；相反，其余两个层级的平均准确率大多未能超过 40.0%；
除 GPT-4 外，其他五个模型的表现相似。

为了评估语言模型的鲁棒性，在上面的实验中我们考虑了六种不同的问题类型，这里进一步展示每个语言模型对单个问题类型的平均准确率，结果如下图所示：

我们得出以下结论：

语言模型对于因果图任务的表现会因为问题类型而出现显著区别。所有模型在是或否（YN）和存在（EX）问题类型上表现优异，但在找全部（FA）、找一个（FO）和多少（HM）问题上表现不佳。
如果评估仅依赖有限的问题类型，模型对因果图的理解可能被人为夸大。如果我们只在选择（CS）、是或否（YN）和存在（EX）问题上评估语言模型。

4 衍生实验

上述实验都是基于直接计算模型输出的准确率，为了更加丰富，我们利用 Captum 工具包从反事实的角度探讨语言模型对因果图的理解，如下图所示：

简单来说，我们首先对 Llama2-Chat-70B 和 Mixtral-8×7B 进行咨询来获取各自的相应。而我们的主要关注点是 “Z→A” 对模型响应的影响，同时我们也怀疑 “X→R” 和 “M→Z” 对模型响应的影响，因此使用反事实扰动分析这三种陈述对模型的影响。

下图展示了反事实扰动分析的结果，结果表明模型对因果图的理解与其聚焦于图中关键信息的能力之间存在强关联：

从上图可以看到：

Mixtral-8×7B 不仅给出了正确响应 “1”，同时 “Z→A” 在反事实扰动分析中被判定为最积极因素，这说明了 Mixtral-8×7B 在推理过程中正确识别和利用相关信息。
而 Llama2-Chat-70B 不仅给出了错误响应 “two”，同时 “Z→A” 对其答案也没有显著正面影响，表明 Llama2-Chat-70B 未能识别关键信息。

5 实验的局限

虽然我们努力设计因果图理解的评估框架、并构建了基准并对六个模型进行了全面实验，但是工作依旧存在着一些局限性：

由于时间和预算限制，我们的基准仅考虑了英语；
语言模型在因果图任务出现什么样的表现才能叫作真正的理解，这仍需进一步探讨；
评估大型视觉语言模型的理解能力可能需要考虑更广泛的因素。

http://mp.weixin.qq.com/s?__biz=Mzg2NjcyNzg3NQ==&mid=2247487453&idx=1&sn=d52a3e0c3ab65c4aef08f878608d8432

知守溪的收纳屋

存放觉得有用的文章。关键词：金融量化、因子选择、因果推断、可解释性、人工智能

最新文章

论文浅尝｜大语言模型能否可以真正理解因果图

量化实操｜国内高频交易数据介绍及限价订单簿

量化语境下的Rust编程基础（入门基础）

量化语境下的Rust编程基础（逻辑控制）

量化语境下的Rust编程基础（基础进阶）

随笔整理 | 策略研究中的常见32个陷阱汇总

量化实操｜七天搭建本地金融任务助手

量化工具｜使用 trade-learn 和 tradingview 行情进行交易策略回测

随笔整理｜量价初探之精选十二个技术指标

量化实操｜实盘交易平台的搭建设计初探

量化实操｜使用大模型与 RagFlow 搭建本地私有化金融知识库

量化实操｜金融市场分析平台的搭建设计初探

量化工具｜使用 trade-learn 搭建沪深300的机器学习策略

量化工具｜7个常见的 Quant 量化论坛和学习网站（中文版）

随笔整理｜如何根据 MAE/MFE 统计方法寻找最佳止损止盈点

随笔整理｜贝叶斯资产配置模型初探： Black-Litterman 与 Entropy-Pooling

应用实操｜基于 Alpha101 的沪深300指数增强策略

应用实操｜霍克斯过程在商品期货分钟行情的探索

应用实操 | 数据科学全流程 Github 仓库汇总

pyfolio和quantstats在backtrader中的策略评估

backtrader量化回测框架入门与参数调优

日语单词变形ー汇总

因果发现在因子挑选上的应用

因果图工具包的介绍

Pearl 体系下的因果浅析

半周年的总结

研报浅尝 | 因果与量化的结合

系列三：量化选股的机器学习策略入门

系列二：传统选股方法的基础流程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉