辛普森悖论(Simpson’s Paradox)是在统计学中被经常误解的一个概念,我自己上课的时候就遇到过老师滥用这个概念。大家在学习统计学的时候,可能也或多或少看到过这个名词,今天我们就来好好地唠唠辛普森悖论到底是什么。
我们先给出一个比较通俗的例子来带大家了解辛普森悖论悖在哪里。Stephen Curry和Lebron James是NBA当下十分优秀,并且打球风格极具代表性的球星。Curry作为小球时代的开创者,身材较小,但三分球远射技术精湛,突破也十分迅捷;而James作为一个时代的超级巨星,身材魁梧,突破十分具有杀伤力,远射技术也不俗。
这两位球星的粉丝多年以来都热爱争论Curry和James谁更厉害这个问题,假如现在有一位球迷了解到,Curry的两分球命中率为60%,三分球命中率为45%,而James的两分球命中率为55%,三分球命中率为40%。因此,这位球迷表示:Curry的两分球与三分球命中率均比James高,Curry比James更厉害。
这时,James的球迷表示不服,当即搜索了一些更多的数据来进行反驳,他发现:Curry的两分球出手占比30%,三分球出手占比70%;James的两分球出手占比80%,而三分球出手占比20%。依此,他分别计算了两位球星的总命中率,Curry的总命中率为:60%*0.3+45%*0.7=49.5%,而James的总命中率为:55%*0.8+40%*0.2=52%。由此,该位球迷反驳说:James的总命中率比Curry高,James比Curry更厉害。
本文无意争论哪位球迷更厉害,仅为引出这一统计学悖论:虽然Curry的两分球与三分球命中率都比James高,但是Curry的总命中率却比James更低。这是一个十分反常识的现象,日常思维下,我们会觉得既然Curry的两分球命中率和三分球命中率更高,他的总投篮命中率也应该更高。但实际上,由于二人的投篮出手分布不同,导致了在计算总命中率时,Curry的总命中率被命中率较低,但出手较多的三分球拖了后腿,而James的总命中率被命中率较高,并且出手较多的两分球抬升了。
这一统计学悖论就被称为“辛普森悖论”,辛普森悖论的英文定义是:The marginal tendency is contradictory to both conditional tendencies。在这里,both conditional tendencies即指Curry两分球命中率和三分球命中率都比James的高,而the marginal tendency指Curry总投篮命中率比James的低。需要注意的是,有一些情况看着像辛普森悖论,但实际上并不对应于辛普森悖论的定义。
比如,在我大数据的课堂里,老师提到了如下的一个辛普森悖论的例子:
我们可以重点关注底下的这一个表,它描述的是英国在新冠期间的一次疫苗接种效果,令人震惊的是,总体人群的死亡率在这次疫苗接种后提高了5倍,与其说是疫苗,不如说是毒药。但是仔细观察的话,我们会发现这一结果具有误导性,对于大量的小于50岁的人群,接种疫苗使死亡率提升57%,而对于少量的大于50岁的老年人来说,接种疫苗降低了3倍多的死亡率。
我的老师将这一现象称为辛普森悖论,这一点在我看来是有错误的。因为在这里,Marginal tendency是死亡率的增加,但Conditional tendencies并不都是死亡率减少,所以这个例子并不符合辛普森悖论的定义。
之所以大家容易搞混,我猜是因为导致图示矛盾的原因,和辛普森悖论本质上是一样的,大家看一下总体人群未打疫苗和打了疫苗的死亡率,是如何基于两个人群相应死亡率得出的,算过了就会发现其本质和上述篮球例子相同。
如上,就是有关辛普森悖论的全部内容。如果你觉得本文有帮助,欢迎点赞+在看支持一下!也不要忘了关注本公众号,解锁更多干货,你的支持是我最大的动力!