寻找并分析因果关系是科学研究中的重要一环,而现有的因果发现算法依赖由专家预先定义的高级变量。现实场景中的原始数据往往是图片、文本等高维非结构化数据, 结构化的高级变量是十分稀缺的,导致现有的因果发现和学习算法难以用于至更广泛的数据。 因此,香港浸会大学与MBZUAI、卡内基梅隆大学、香港中文大学、悉尼大学以及墨尔本大学合作发表论文《Discovery of the Hidden World with Large Language Models》,提出了一个名为 COAT 的新型框架,旨在利用大型语言模型和因果发现方法的优势,突破传统因果发现方法的局限性,更有效地在现实世界中定义高级变量、理解因果关系。
因此,香港浸会大学与MBZUAI、卡内基梅隆大学、香港中文大学、悉尼大学以及墨尔本大学合作发表论文《Discovery of the Hidden World with Large Language Models》,提出了一个名为 COAT 的新型框架,旨在利用大型语言模型和因果发现方法的优势,突破传统因果发现方法的局限性,更有效地在现实世界中定义高级变量、理解因果关系。
论文标题:
Discovery of the Hidden World with Large Language Models
论文链接:
https://arxiv.org/pdf/2402.03941
项目代码:
https://github.com/tmlr-group/CausalCOAT
项目主页:
https://causalcoat.github.io/
一、引言
科学的发展离不开对重要变量的识别和它们之间的因果关系的揭示 [1,2]。现有的因果发现方法(Causal Discovery methods, CDs)主要依赖于由人类专家提供的高质量测量变量 [3,4,5]。然而,在更广泛的实际的应用中,它们往往是稀缺的。例如,想要分析用户评分相关因素的亚马逊卖家,只能拥有原始的用户评论,这些评论是根据用户对某些产品特征的潜在偏好撰写的。因此,缺乏高质量的高级变量一直是 CDs 或受因果关系启发的方法在更广泛实际应用中的长期障碍 [6]。
大型语言模型(Large Language Models, LLMs)[7,8,9,10] 通过学习来自真实世界的大量文本数据,在理解非结构化输入方面展现了惊人的能力,并利用所学到的丰富知识解决各种通用任务 [11,12]。一系列早期的测试表明,LLMs 能够有效地利用所学知识回答常见的因果问题 [11,13,14]。尽管如此,现有的方法主要集中于将 LLMs 作为一种应用于给定的因果变量的直接推理器。由于 LLMs 的一系列缺陷 [18,19,20],这种直接推理器的可靠性仍然存在争议 [13,15,16,17]。
更关键的是,经典的因果发现方法 [3,4,5] 强调识别因果结构的理论保证,而现有的 LLMs 和因果发现结合的方法仍然没能给出充分的讨论或分析。因此,本文聚焦在一个具有挑战性的研究问题:LLMs如何可靠地帮助揭示现实世界背后的因果机制?
二、LLM作为表征助理用于因果发现
本文的研究目标是利用大语言模型的优势为非结构化数据设计并提供结构化的表征。该表征应当由一系列的高级变量 (factors) 组成,捕捉用户感兴趣的信息,并具备一定的可解释性。
为了实现这样的目标,我们提出了一套简单而有效的框架算法:Causal representatiOn AssistanT (COAT). 用户只需提供一个感兴趣的目标变量,COAT 将迭代地找寻一组高级变量,构成目标变量的马尔可夫毯 (Markov Blanket)。在此基础上,任何合适的因果发现算法均可用于进一步的因果结构识别,加深对目标变量的理解。
数据
假设有一个用户感兴趣的 目标变量 ,比如消费者对商品的评分,或是患者肿瘤的类型。我们将Y视为一个标量随机变量。 待分析的 非结构化数据 记做 , 比如消费者附在评分后面的文本评论,或是患者肿瘤对应的医学图像。 数据集 由从 的分布中独立抽取的 对样本 组成。
注:我们对 和 之间的因果关系不做特定的假设。
目标
大语言模型用作表征助理
高级变量的可解释性
甜度: 1: 此消费者对苹果甜度感到满意;-1: 此消费者对苹果甜度感到失望;0: 没有提及 / 无法判断;
三、COAT: Causal representatiOn AssistanT 框架
图 1. COAT 框架示例
COAT的框架如图1所示,COAT被用来分析消费者对苹果的文本评论数据。这里用户感兴趣的目标变量是消费者对苹果的评分。
在我们提出的 COAT 框架中,每一轮迭代将依次经过以下几个步骤。
变量提出
图 2. COAT 在变量提出环节的 prompt 示意
取值解析
因果发现
利用反馈进一步寻找高级变量
整体框架总结如下:
图 3. COAT 框架总结
四、反馈构建
图 4. 待发现的高级变量的不同情形.
五、理论分析
感知分数 (Perception Score) : LLM 提出符合上文描述的新的高级变量的概率。*(可以简写为 )* 能力分数 (Capacity Score) : LLM 提出符合上文描述的新的高级变量 ,对条件互信息的贡献:
六、AppleGastronome 实验
图 5. AppleGastronome 数据样例.
数据集构造
图 6. AppleGastronome 相关因果图.
基线方法
META
为 LLM 使用背景知识直接给出高级变量;DATA
为没有反馈机制的单轮 COAT 方法。DATA+CoT
是将 DATA
方法中取值解析换为 CoT 分析。关于用 LLMs 识别因果关系的基准,我们采用让 LLMs 为每一对变量作出方向判断 [11] 的方法。评价指标
MB
:马尔可夫毯中的高级变量(语义等价即可,下同),最大值为5;NMB
:不在马尔可夫毯中,但属于6个变量之一,最大值为1;OT
:其他变量。实验也同时计算了相对于马尔可夫毯的 recall, precision, 和 F1 分数。结果分析
图 7. AppleGastronome 实验结果(完整版见论文附录E.4).
从实验结果上看:
通过 CoT 提示,LLM 可以更好的分析并识别出与 相关联的高级变量,但没能有效区分出马尔可夫毯。 利用对高级变量的取值解析,COAT 可以有效区分出应当排除的节点,因此有更低的 NMB
指标。COAT 与
DATA
方法的比较,支持了前文的反馈设计能有效促进变量的识别。
图 8. LLMs 相关能力的实验评估.
LLMs 能否有效识别高级变量?
LLMs 能否有效解析高级变量的取值?
图 9. LLMs 标柱噪声的独立性检验.
LLMs 的取值解析过程可能会引入额外的噪声,甚至额外的混杂因素。因此,我们也对标注噪声和特征之间进行了独立性测试。如图9所示,在较先进的 LLMs,例如 GPT-4-Turbo 的帮助下,依赖关系可以控制在可接受的水平。
COAT 能否可靠地辅助还原因果结构?
图 10. AppleGastronome 数据集上 COAT 因果结构识别评估.
七、🩺 Neuropathic 实验
图 11. Neuropathic 数据样例. 个人信息均为虚构.
数据集构造
实验结果
图 12. Neuropathic 相关因果图.
图 13. Neuropathic 实验结果.
PA
、AN
和 OT
分别代表父母节点、祖先节点和其他应当排除的节点。准确性和 F1 测量祖先节点的恢复情况。类似的,COAT 相比基线方法有显著的效果。特别是,由于 COAT 并不重点依赖 LLMs的推理能力,在较弱的 Llama-2-7b 中也有不错的表现。相反,CoT 在这里并没能保持其在 AppleGastronome 上表现。八、厄尔尼诺现象:案例分析
ENSO(厄尔尼诺-南方涛动)是发生在太平洋地区的一种重要气候现象,其主要特征是赤道太平洋海表温度的周期性波动,即厄尔尼诺现象和拉尼娜现象。这些波动会对全球气候产生重大影响,包括降水、风暴发展和温度异常。因此,预测 ENSO 事件涉及海洋和大气系统的复杂相互作用,因此仍然是一个开放的问题。
图 14. COAT 探究 ENSO 因果机制.
九、结语
部分参考文献
[1] Norwood Russell Hanson. Patterns of discovery : an inquiry into the conceptual foundations of science. Cambridge University Press, 1958.
[2] Thomas S. Kuhn and David Hawkins. The structure of scientific revolutions. American Journal of Physics, 31:554–555, 1963.
[3] Peter Spirtes, Clark Glymour, and Richard Scheines. Causation, Prediction, and Search, Second Edition. Adaptive computation and machine learning. MIT Press, 2000.
[4] Peter Spirtes, Clark Glymour, Richard Scheines, and Robert Tillman. Automated Search for Causal Relations: Theory and Practice, 2018.
[5] Matthew J. Vowels, Necati Cihan Camgoz, and Richard Bowden. D’ya like dags? a survey on structure learning and causal discovery. ACM Computing Survey, 55(4), 2022.
[6] Bernhard Scholkopf, Francesco Locatello, Stefan Bauer, Nan Rosemary Ke, Nal Kalchbrenner, Anirudh Goyal, and Yoshua Bengio. Towards causal representation learning. arXiv preprint, arXiv:2102.11107, 2021.
[7] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In Advances in Neural Information Processing Systems, 2020.
[8] OpenAI. Chatgpt. https://chat.openai.com/chat/, 2022.
[9] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothee Lacroix, Baptiste Rozi `ere, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. arXiv preprint, arXiv:2302.13971, 2023.
[10] OpenAI. Gpt-4 technical report, 2023.
[11] Emre Kiciman, Robert Ness, Amit Sharma, and Chenhao Tan. Causal reasoning and large language models: Opening a new frontier for causality. arXiv preprint, arXiv:2305.00050, 2023.
[12] Sebastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, EceKamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott M. Lundberg, Harsha Nori, Hamid Palangi, Marco Tulio Ribeiro, and Yi Zhang. Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint, arXiv:2303.12712, 2023.
[13] Cheng Zhang, Stefan Bauer, Paul Bennett, Jiangfeng Gao, Wenbo Gong, Agrin Hilmkil, Joel Jennings, Chao Ma, Tom Minka, Nick Pawlowski, and James Vaughan. Understanding causality with large language models: Feasibility and opportunities. arXiv preprint, arXiv:2304.05524, 2023.
[14] Ahmed Abdulaal, adamos hadjivasiliou, Nina Montana-Brown, Tiantian He, Ayodeji Ijishakin, Ivana Drobnjak, Daniel C. Castro, and Daniel C. Alexander. Causal modelling agents: Causal graph discovery through synergising metadata- and data-driven reasoning. In The Twelfth International Conference on Learning Representations, 2024.
[15] Matej Zecevic, Moritz Willig, Devendra Singh Dhami, and Kristian Kersting. Causal parrots: Large language models may talk causality but are not causal. Transactions on Machine Learning Research, 2023.
[16] Zhijing Jin, Yuen Chen, Felix Leeb, Luigi Gresele, Ojasv Kamal, Zhiheng LYU, Kevin Blin, Fernando Gonzalez Adauto, Max Kleiman-Weiner, Mrinmaya Sachan, and Bernhard Sch ̈olkopf. CLadder: A benchmark to assess causal reasoning capabilities of language models. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.
[17] Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona T. Diab, and Bernhard Sch ̈olkopf. Can large language models infer causation from correlation? arXiv preprint, arXiv:2306.05836, 2023.
[18] Yue Zhang, Yafu Li, Leyang Cui, Deng Cai, Lemao Liu, Tingchen Fu, Xinting Huang, Enbo Zhao, Yu Zhang, Yulong Chen, Longyue Wang, Anh Tuan Luu, Wei Bi, Freda Shi, and Shuming Shi. Siren’s song in the AI ocean: A survey on hallucination in large language models. arXiv preprint, arXiv:2309.01219, 2023.
[19] Chenhang Cui, Yiyang Zhou, Xinyu Yang, Shirley Wu, Linjun Zhang, James Zou, and Huaxiu Yao. Holistic analysis of hallucination in gpt-4v(ision): Bias and interference challenges. arXiv preprint, arXiv:2311.03287, 2023.
[20] Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, and Owain Evans. The reversal curse: Llms trained on ”a is b” fail to learn ”b is a”. arXiv preprint, arXiv:2309.12288, 2023.
[21] Constantin F. Aliferis, Alexander Statnikov, Ioannis Tsamardinos, Subramani Mani, and Xenofon D. Koutsoukos. Local causal and markov blanket induction for causal discovery and feature selection for classification part i: Algorithms and empirical evaluation. Journal of Machine Learning Research, 11(7):171–234, 2010.
[22] Shantanu Gupta, David Childers, and Zachary Chase Lipton. Local causal discovery for estimating causal effects. In Conference on Causal Learning and Reasoning, volume 213, pages 408–447, 2023.
[23] Judea Pearl and Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. Basic Books, Inc., USA, 1st edition, 2018.
[24] Timo Schick, Jane Dwivedi-Yu, Roberto Dess`ı, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. arXiv preprint, arXiv:2302.04761, 2023.
[25] Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huan, and Tao Gui. The rise and potential of large language model based agents: A survey. arXiv preprint, arXiv:2309.07864, 2023.
[26] Ruibo Tu, Kun Zhang, Bo C. Bertilson, Hedvig Kjellstrom, and Cheng Zhang. Neuropathic pain diagnosis simulator for causal discovery algorithm evaluation. In Advances in Neural Information Processing Systems, pages 12773–12784, 2019.
[39] Gilbert P Compo, Jeffrey S Whitaker, Prashant D Sardeshmukh, Nobuki Matsui, Robert J Allan, Xungang Yin, Byron E Gleason, Russell S Vose, Glenn Rutledge, Pierre Bessemoulin, et al. The twentieth century reanalysis project. Quarterly Journal of the Royal Meteorological Society, 137(654):1–28, 2011.
[40] Jakob Bjerknes. Atmospheric teleconnections from the equatorial pacific. Monthly weather review, 97(3):163–172, 1969.
[41] Chunzai Wang. Enso, atlantic climate variability, and the walker and hadley circulations. In The Hadley circulation: Present, past and future, pages 173–202. Springer, 2004.
[42] Yinge Liu, Ninglian Wang, Lingang Wang, Zhongming Guo, and Xiaobo Wu. Variation of cloud amount over china and the relationship with enso from 1951 to 2014. International Journal of Climatology, 36(8):2931–2941, 2016.
[43] Anoop Kumar Mishra. Investigating changes in cloud cover using the long-term record of precipitation extremes. Meteorological Applications, 26(1):108–116, 2019.
作者:Chenxi Liu 来源:公众号【PaperWeekly】
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。