警惕数据分析中的“权重陷阱” —— 聊一聊辛普森悖论

教育   2024-10-23 11:22   加拿大  

直播预告:杨老师将在小红书账号 DrYangYang 进行一次直播,核心话题是“面试中怎样应对情景题”,特邀嘉宾北美求职专家Loewe Ke共同讨论。开始时间:北京时间10月24日上午8点 / 美东时间10月23日晚上8点。滑动到本文底部可观看小红书视频讲解。

20年的教学让我认识到一个问题:尽管我们的基础算术教育很成功,但并不是每个人都把数学意识顺滑地应用在日常工作中。举一个例子,每年我给企业或高校办编程或数据分析训练营时,总会有一些学员犯下面的错误:

当然,上图这个错误相信大多数读者都能一眼看出来:求整体的平均值,不能简单地把各部分平均值加在一起再平均。原因在于,由于市场部和仓储部人数不同,所以两个部门各自平均值的“话语权”也不一样。

既然仓储部人更多,那么仓储部的工资均值4000元,对于公司整体平均工资的影响力就更大一些;而市场部人少,其工资均值5000元对于整体平均工资的影响力就小一些。所以正确的做法是“加权平均”,即 (5000×20 + 4000×30) ÷ (20+30) = 4400 元。

这就是一个最简单的“权重陷阱”,也是我们小学算术课上学过的内容。而在实际项目中,权重陷阱可谓比比皆是,并且经常以更加隐蔽的方式出现,甚至很多企业管理者和数据分析师也会不小心踩坑。这里面最常见的,就是著名的“辛普森悖论”(Simpson's Paradox)。

比如下面这个面试题,如果考官请你根据表格中给出的数据,谈谈对视频网站和搜索引擎两个广告渠道的评价和建议,你会怎样想呢?

我把这个问题交给刚进入一对一辅导项目的实习学员,结果不出意外:所有人看一眼表格后就开始讨论为什么视频广告的转化率不如搜索引擎,以及如何提高视频网站转化效果云云。

然而学员们并不知道,自己已经踏入权重陷阱,第一句话就说错了。


乍看起来,表格中的视频网站转化率确实不如搜索引擎,因为无论在北美还是在亚洲,它的数值都低于后者。

但是如果把两个地区合并在一起,计算“全球市场(北美+亚洲)”中的总体转化率,我们却会得到一个完全相反的答案:

可以看到,将北美和亚洲市场合并在一起后,视频网站(上图中红色图文)的总体转化率是0.074,而搜索引擎(蓝色图文)的总体转化率却只有0.066 。

也就是说:虽然不论在北美还是亚洲,视频网站转化率都低于搜索引擎,但是汇总之后,视频网站转化率却高于搜索引擎。

这种看似矛盾的现象,就是统计学家爱德华•H辛普森在1951年提出的“辛普森悖论”。

造成悖论的原因是什么呢?杨老师喜欢通过一个“篮球队”的例子来解释。我们把视频网站在北美的曝光次数 10 看作1个篮球队员,把它在北美的转化率 0.02 看作这个队员的身高。同样,把视频网站在亚洲地区的曝光次数 90 看作 9 个篮球队员,把亚洲地区的曝光率 0.08 看作这 9 个队员的各自身高,那么“视频网站篮球队”如下图所示:

用同样的思路把“搜索引擎”也画成一个篮球队,然后与视频网站队摆在一起比较,就可以发现问题所在:

可以看到:红队(视频网站)的小个子球员(身高0.02)都低于蓝队(搜索引擎)小个子球员(身高0.03);同时红队的大个子球员(身高0.08)也都低于蓝队大个子球员(身高0.09)。然而,红队中只有1个小个子队员、却有9个大个队员,而蓝队中大小个球员数量接近,所以红队的平均身高仍然高于蓝队!

换句话说,尽管红队的两个身高数值(0.02和0.08)都低于蓝队,但是在“队员数量”这个权重的影响下,加权平均之后得到的结果完全有可能反超蓝队。这就是造成辛普森悖论的直接原因 —— 权重的影响。

汇总为一句经验:每当把局部结论汇总为整体结论时,都请首先注意各个局部的权重!

最后奉上本文的视频讲解:



杨氏在线教学
由杨洋博士主持,专注制作高品质教学视频,以清晰简洁、生动有趣的教学风格,普及推广Python、VBA、SQL等各类实用计算机技术。 官方网址请见:https://www.ukoedu.com
 最新文章