从统计学的角度探讨中国奥运游泳队的服药疑云

文摘   2024-08-09 11:21   广西  

前阵子潘展乐夺冠,但是在国际上争议却很大,有一部分其他国家参赛的运动员怀疑这是服药的结果。

我不是体育类博主,所以无心参与上述争论,有心的朋友可以自己搜索多方面的信息源来梳理这一事件背后的历史原因。我自己在阅读网上有关争论时,看到一幅有关中外服药检测数据的图片,我根据图的标题找到了原报道:


该图中,中国的服药违反记录百分比是最低的。正因此,有网友表示,外国运动员对潘展乐以及中国游泳队的诬陷是恶人先告状:


再次强调,我不是体育或奥运类博主,无心为这一问题定下结论,任何相关争吵的评论我也不会精选。我只想从统计学的角度来聊聊,上述图片是否能够作为合适的论据。

在假设上述图中的数据无误的情况下,我们已知:中国运动员总体的服药违反记录比例是最低的(甚至在被检测次数遥遥领先的情况下)。但是在这一争议性的话题下,由于我们讨论的是游泳运动员,所以我们想要说明的是:中国游泳运动员的服药违反记录比例是比其他国家低的

所以我们能否从前者推出后者呢?我们想象一个极端的情况:假如国家A游泳项目的运动员全部有过服药历史并被检出,而其他项目的运动员均没有服药历史并没有被检出;而国家B游泳项目的运动员全部从未有过服药历史,而其他项目的运动员均有过服药历史并被检出。在这种假想的情况下,即使国家A游泳项目运动员“劣迹斑斑”,但由于其他项目的运动员“遵纪守法”,所以游泳项目的高比例服药会最终被“稀释”,从总体上看服药比例仍旧很低;而国家B的游泳项目运动员虽然“遵纪守法”,但由于该国家其他所有项目的运动员“劣迹斑斑”,所以游泳项目的低比例会被抬高,从总体上看服药比例很高

以上只是一些统计学和数学方面的解释和推演,为了说明我们的事实论据和我们的结论/观点是有潜在的距离的。这一案例呈现,是为了帮助大家更好地甄别事实与论据,无意通过上述论述来支持或反对哪一方。

如果你因为既有的立场和情绪,没有办法很好地阅读上述例子,来消化相关的统计学问题,这都是可以理解的我可以再和你分享一些其他类似的,但距离我们更遥远的真实事例。


美国著名的大学UC Berkeley曾经遭到过控诉,被认为在录取学生时存在性别歧视的行为。以下是一组1975年的录取数据:

如果大家计算一下总体的男女录取比例,男生有44%被录取,女生有35%被录取。从这两个数字来看,我们可能会倾向于做出结论:该校在录取方面确实存在潜在的性别歧视

现在让我们仔细观察上表中的详细数据,上表逐行陈列了各个学院的男女生申请人数(Number)以及相应录取率(%succeeded)的数据。如果按照每个学院的男女生录取比例来看,我们得到截然相反的印象:每个学院的女性录取率要么高于男性录取率,要么大致与男性录取率持平

让我们来分析一下造成该现象的原因:由于申请学院AB的女性相对申请学院CDEF的女性更少,所以学院CDEF的低女性录取率对学院AB的高女性录取率的“稀释”作用很大,而对男性则相反,所以最终从总体来看,我们会观察到男性录取率高于女性录取率的情况。通过细致观察各学院录取数据,我们知道简单的男女生录取率并不能够反映事物的全貌,甚至有可能歪曲事实。


最后再分享一个相似,但更加棘手的案例。在流行病学上,母亲孕期的吸烟行为与胎儿健康一直是一个十分受关注的话题。假设我们对孕期吸烟行为与胎儿出生死亡率感兴趣,并获得如下一组数据:

上述数据了呈现了当母亲为吸烟者或非吸烟者时,不同新生儿体重下,每1000个新生儿的死亡率。这个数据乍一看,会让人得出一个反常识的结论:母亲不吸烟会增加新生儿死亡率。这个反常识的结果实际上在该领域也困扰了研究者们十几年,我们现在比较简单地来陈述这一反常识结果的可能原因。

首先让我们再强调下,表格中的数字虽然很多是大于100的数字,但它们仍旧是“比例”数据,并不代表绝对的人数。所以当新生儿重量小于1500克时,非吸烟者的792这一数字并不一定大于吸烟者的565这个数字,具体地,只有当我们知道当母亲不吸烟或吸烟,其新生儿重量小于1500克的实际人数时,我们才能够判定具体的新生儿死亡人数

由此,让我们想象一种情况,对于非吸烟母亲来说,她们的新生儿低重量的概率是很低的,也就是说非吸烟母亲大多数的新生儿都集中在健康重量的范围;而对于吸烟母亲来说,她们的新生儿低重量的概率是很高的,也就是说吸烟母亲大多数的新生儿都集中在非健康的低重量的范围

这时,如果我们计算整体的死亡率,在母亲不吸烟的情况下,由于低重量新生儿更少,所以较高重量新生儿的低死亡率会大大稀释低重量下的高死亡率,最后整体的死亡率会被拉低到一个较低水平;而在母亲吸烟的情况下,由于低重量新生儿更多,所以即使高重量新生儿死亡率低,但最后的整体死亡率仍会被拉高到一个较高水平


通过以上3个事例,我主要想说明的是,统计数据可以有很大的迷惑性,就连最简单的描述性统计亦然。未知全貌,不予置评的道理在统计学中一样适用,对于大多数未拥有“全部”数据的读者来说,对于任何统计数据的结果,我们都应将其与最后的真相保持一段距离。统计结果并不是一派胡言,也没有办法给你最终的答案。无论统计学如何火热和强大,对事实做出判断仍旧是每个个体自己的义务和责任,统计结果并不应该作为个体判断的唯一有力论据。而依据已有的信息做出明智的判断,在每个时代无疑都会是一种难得的智慧

如果你已经入门了统计学,但是想深化自己的统计学知识,也欢迎参与早鸟价订购我的第一本统计学讲义。如果你目前还没想好,也可以将我的宝贝加入购物车,并关注公众号的动态,我会在早鸟价最后一天时再提醒大家购买!



PsychoStatisticia
一个统计学研究者的个人天地
 最新文章