相关不等于因果

学术   2024-11-01 18:10   陕西  

文章来源:量化策略发现者

在本人钟爱的一本书女士品茶中,统计学家萨尔斯伯格巧妙地利用“女士品茶问题”作为切入点,深入浅出地讲述了统计学如何在20世纪颠覆了科学界的认知。在书中,作者描述了一个发生在20世纪20年代后期的英国剑桥的下午茶时间的故事。其中一位女士声称,将茶倒入奶中或奶倒入茶中不同的做法会使茶的味道不同。在场的大学教员们对此嗤之以鼻,并表示这绝对是吃饱了撑的!他们还问:“不管这位女士能否分辨两种饮品,这件事有什么意义呢?但R.A.费希尔却对这个问题产生了浓厚的兴趣,并精心策划了一个实验,旨在验证这位女士的断言。
在实验中,费希尔设计了一个方案,准备了八杯奶茶,其中四杯是先倒茶后加奶,另外四杯是先倒奶后倒茶。这位女士被告知实验的设计,并且这八杯奶茶是按随机顺序让她逐一品尝判断每一杯的冲制方式。实验的目的是检验这位女士是否真的能够区分两种不同的奶茶。
在统计学和数据分析的世界里,将相关性误作因果关系是一个常见的误区,这种误解往往会引导我们走向错误的结论和决策之路。
首先,让我们明确这两者的定义:

相关性描述的是两个变量之间的统计联系。当一个变量的变动似乎与另一个变量的变动相伴随时,我们就说这两个变量存在相关性。
因果关系则是一种更为深层次的联系,指的是一个事件(原因)直接引发了另一个事件(结果)的发生。确定因果关系不仅需要事件间的时间序列,还需要排除其他可能的解释。在科学研究中,确定因果关系通常需要借助实验设计或严谨的观察研究。

尽管相关性可以提供变量之间关系的线索,但它并不足以证明因果关系。例如,如果我们发现冰淇淋销量和溺水事故的发生率在夏季都有所增加,这并不意味着冰淇淋销量导致了溺水事故。实际上,它们可能都是由一个共同的因素——炎热的天气——所影响的。

在中国股市,我们也常常观察到类似的“因果关系”假象。例如,当某个板块出现显著异动,或某家上市公司的基本面发生改变时,相关个股往往会迎来主升浪,即股价持续上涨。许多投资者和分析师可能会据此推断,板块异动或基本面变化直接催生了股价上涨,从而错误地将这种相关性视为因果关系。
当某个行业板块突然集体上涨时,投资者可能会认为这是由于行业基本面的改善所导致的。确实,行业基本面的改善可能会对股价产生积极影响,但板块的上涨也可能仅仅是因为市场炒作、投机行为或者是对未来预期的提前反应。在这种情况下,板块上涨与基本面改善之间的相关性,并不足以证明直接的因果关系。
中国股市中的“抱团取暖”现象也是一个例证。在市场不确定性增加时,资金往往会涌入某些龙头个股,推动其股价上涨,而其他个股则表现平平。投资者可能会误以为龙头个股的上涨会带动其他个股,但实际上,这种相关性可能仅仅是市场情绪的反映,而非因果关系。
正是这些股市中的相关性现象,让我们不得不思考一个根本问题:相关性是否等同于因果关系?

投资者很容易将观察到的相关性误认为因果关系,这种误解可能导致基于错误前提的投资决策,进而导致思维僵化,面临不必要的投资风险。因此,对于投资者而言,理解相关性与因果关系的区别至关重要。



接下来,让我们探讨概率与相关性的关系:
统计关联揭示了变量间可能存在的概率分布信息。例如,如果两个变量高度相关,我们可能会预测,当一个变量的值增加时,另一个变量的值也可能随之增加。
在统计模型中,相关性可用于预测一个变量的值。
尽管相关性本身不能证明因果关系,但概率理论可以帮助我们理解不同变量间可能存在的联系。通过概率模型,我们可以评估一个变量的变化对另一个变量的可能影响程度。
概率分布描述了一个变量在不同取值上的概率。相关性有助于我们理解这些概率分布之间的关系。例如,如果两个变量相关,它们的联合概率分布可能会呈现出特定的模式。
统计检验中,概率和相关性都扮演着关键角色。我们可以利用相关性来设计实验,并通过概率评估实验结果的显著性。例如,假设检验有助于我们确定观察到的相关性是否具有统计学意义。
概率为我们提供了事件发生的可能性,而相关性则描述了变量之间的关系。通过结合这两个概念,我们可以更深入地理解和分析数据。但要确定因果关系,我们还需进行更深入的分析和研究,包括控制变量、进行实验或使用统计方法来排除其他可能的解释。
至于那位品茶的女士,她后来怎样了呢?费希尔没有描述那个阳光明媚的夏日午后发生在剑桥的那场实验最终的结果如何。不过史密斯教授说,那位女士正确判断出了每一杯茶的制作方式。

注:本文仅作学术分享,文章版权归原作者所有,如有侵权请联系后台,感谢。

计量经济学
计量交流,做中国最大的计量软件交流社群
 最新文章