Vol.1
前言
随着统计技术的发展,我们越来越难以满足于简单的单变量间的因果推断。然而很多时候,当我们想推导多个变量间的复杂效应关系时,往往又会面对庞杂的文献结果无从下手。本次推文,我们将全方位解析有向无环图(DAG)是怎样将复杂的假设关系通过模型图的形式展现出来,并能更有效地支持我们所做的研究。同时,可以在许多经典理论不充足的情况下,依然可以获得可遵循的框架结构。
Vol.2
概念与定义
有向无环图(Directed Acyclic Graph,DAGs)顾名思义,是一种描述变量间关系的图模型,也有人称其为路径图;它具有两种特点:有向性:边是有方向的,表示节点之间存在方向性的关系;无环性:图中不存在任何从某个节点开始经过若干条边又回到该节点的路径(即不存在循环路径)。DAGs与网络分析一样,发源于图论,所以也是由节点与边线(单向箭头)构成。
而我们常常看到的贝叶斯网络则是一种基于 DAG 的概率模型,这也是为什么很多人在学习DAGs时经常会听到其和贝叶斯网络一起出现的原因。
Vol.3
作用
我们都知道,目前用于因果推断,最准确的是随机对照实验。然而在数据挖掘流行的今日,我们要处理的数据,往往都是根据现有的观测数据(数据库)进行。这就导致我们需要理解、识别和尝试解决非实验数据中出现的许多偏倚来源,包括混杂偏倚、选择偏倚和信息偏倚[[i]]。
一些传统的数据挖掘研究往往采用各种各样的回归,来描述或报告一些“预测因子”。然而我们为什么要选择这些变量?又为什么会出现一些神奇的“关联”。
以下就是DAGs的作用,用于解决这些研究中难以直接描述的/缺乏理论论证的研究假设:
1、DAGs可以作为变量之间统计学关联和因果关系的直观展示方式;
2、也可以使用DAGs来定性说明各种关系,从而可以根据变量间的关系进行恰当的调整,得到可靠的因果关系推断。
3、但需要注意的是,DAGs本身并不是因果模型,它只是描述了变量间的关系,但我们可以用其来分析因果关系。通过路径分析,找到暴露和结局之间的所有可能的因果路径,去除(调整)两者间非因果关系路径,从而准确的推断暴露和结局之间的关联。
路径类型:
①因果路径:暴露指向结局的单项路径:
(存在直接因果效应A-B/B-C与间接因果效应A-C);
②混杂路径:暴露和结局之间存在混杂变量的路径:
③对撞路径:某一变量同时是两种变量的结果,不能进行混杂变量的调节,否则会产生两种原本不相关的变量最后变得相关的结果:
(如果你实在不了解暴露、混杂等等流行病学专业词汇,欢迎阅读这篇文章来加深你对这些词汇的理解:https://doi.org/10.1093/ejendo/lvae032)
*这就一种DAGs,图片中的U就代表那些不可被观测(或是说潜在的)变量。
Vol.4
应用
根据DAGs来推断因果关系,并且可以辅助识别估计因果效应时需要调整的混杂变量:
1、找到所有的暴露变量和结局变量之间因果路径
2、去除对撞路径,不调整对撞变量
3、阻断混杂路径,确定哪些是需要调整的混杂变量
4、采用恰当的方法进行因果效应的推断
JAMA在2022年专门报道过一篇关于因果有向无环图[[i]](医咖会还有专门的翻译),我们可以作为DAGs的指南来使用。其中很详细地说明了碰撞因素以及可调整的混杂因素都是如何判断的。如果你无法理解接下来的DAGs构建过程,那么推荐你详细阅读这篇文章,来加深自己对DAGs的理解。
*图中明确展示了对撞路径以及画红框中不可以被调节的因素。
Vol.5
实操
说了很多,我们也阅读了许多相关的文献,总结出许多需要考虑的变量,那么DAGs如何实现呢?这里就要抬出我们的神器dagitty!(https://www.dagitty.net/ )
首先找到new model,这样就可以方便你建立一个新的属于自己的模型。
接着点击Variable,再点击空白的图纸,就可以创建一个变量,你可以选择这是一个暴露/结果/调整...变量。创建好这个新变量后就可以进行选择了。
依次点击这两个创建好的变量,就可以在变量中画出一条因果关系线。在图示的右边你可以看出此时这两个变量之间的具体关系,有无错误的关系,以及推荐如何进行调整等等。是一个不错的辅助神器。
所以快去构建属于自己的假设模型进行尝试推导吧!(基于篇幅原因,这部分不会每个键都进行展示,在daitty的官网上有许多教程以及视频,可以指导大家如何快速上手这个软件。因为视频演示会比文字叙述更加清楚,所以如果你用得到可以直接查阅官网上的详解视频。)
当然,有同学可能要问了,那么我们经常看到的,这种图片又是如何做出来的呢?
这种关系的制作过程,更像是依赖数据驱动得到的变量间关系图,与本章DAGs的基础原理不太一样。我们留到下次推送中再详细讲解。
参考文献
[1] Tennant, P. W. G., Murray, E. J., Arnold, K. F., Berrie, L., Fox, M. P., Gadd, S. C., Harrison, W. J., Keeble, C., Ranker, L. R., Textor, J., Tomova, G. D., Gilthorpe, M. S., & Ellison, G. T. H. (2021). Use of directed acyclic graphs (DAGs) to identify confounders in applied health research: review and recommendations. International journal of epidemiology, 50(2), 620–632. https://doi.org/10.1093/ije/dyaa213
[2] Lipsky, A. M., & Greenland, S. (2022). Causal Directed Acyclic Graphs. JAMA, 327(11), 1083–1084. https://doi.org/10.1001/jama.2022.1816
PSYCH统计实验室
通知公告
点击文字,了解寒假培训详情
感兴趣的朋友请扫描下方的二维码报名,一起学习吧!
网络分析课程目前开放视频课啦!
单次课200元/讲(学生),250元/讲(非学生)
共有四讲内容:
①横断面网络分析简介与基础
②网络分析与因子分析
③交叉滞后网络分析
④时间序列网络分析
购买后开放视频权限14天,可多次申请。
并赠送所有课程相关资料(无PPT)
如果想申请购买,请联系M18812507626
更多资讯
关注我们
文稿:莲花清瘟
排版:Peruere
责编:Wink
审核:摘星
本文由“Psych统计自习室”课题组原创,欢迎转发至朋友圈。如需转载请联系后台,征得作者同意后方可转载。