为什么民调会失效?

文摘   2024-11-06 11:00   广东  

似乎从2016年大选(川普VS希拉里)那一次开始,美国大选的polling和各种预测都失效了。

要知道在这之前,有个叫Nate Silver的因为预测大选结果准确而封神(你们现在去网上搜这个名字,仍然能搜出各种吹的文章)

他被称为“数据魔法师”——这其实都源于他对自2008年始的历次美国国内选举的超精准预测。不错,他正是另美国国内最大的民调机构之一的Gallup Poll都恨的咬牙切齿的政治分析家,而他的武器,则是一颗聪明的、充满统计学思维的大脑。

Nate Silver有多厉害?这里不得不提他的累累战功:在2008年美国大选前,他成功预测了美国50个州当中49个州的结果,唯一预测失误的印第安纳州的结果和他的预测仅仅相差1个百分点,这让他声名鹊起,成为政界新宠;2010年国会中期选举,虽不如08年时精准,他仅失误了预测了11席众议院席位和3个州的参议院席位;2012年Nate Silver更是大显神威,成功预测包括9个摇摆州在内美国全部50个州的大选结果,百发百中,无一失误⋯⋯

但是2016年这一次大选,截至投票结束,他的预测是71.4%希拉里赢,不但错了,而且错的离谱到阿尔巴尼亚去了。

现在大名鼎鼎提供民调数据的盖洛普(Gallup)就是因为预测选举结果在1936年一战成名。盖洛普之所以能赢是因为他用了分层抽样尽可能的从所有的客群里都选择出来一部分样本),并且派人去面访减少non-response bias)。从而在那个时代跑赢了竞争对手。

那么为什么突然有一天基于民调数据的预测全部失效了,2016 / 2020 / 2024连续三届无法预测。站在统计的角度我们来分析一下。

1. 不愿意说出真实答案

在2016年的时候,我们的建国同志还是个比较小众的人,小众到很多人不好意思说他支持建国。

举个不恰当的例子你出去问100个男生有没有看过P站,得到的数据低估男生看P站的比例。在傲骨之战(The Good Fight)第一季第三集里,一个投票给建国同志的黑人律师被全律所(全黑人律所)抵制和唾弃。这里也侧面反映出了为什么在当时很多人不敢表明自己支持建国的立场。


2. 低估了建国同志支持者的投票率

还是说2016年(2020年因为疫情比较特殊),一般我们会按照往年某一个客群的投票率来预估本年的投票情况。很多红脖子在往年是不投选票的(不care谁当总统),2016年很多红脖子为了支持我们的建国同志破例去投了票。

这个就像我前几天发的文章(90天让新户风险下降17%的心得),每个客群的风险(类比投票倾向)都没太大变化,但是客群结构的调整(类比投票率)让整体风险下降(类比投票结果)。


3. 大选机制&摇摆州

除缅因州和内布拉斯加州外,其他州都采用“赢者通吃”制度,即在某州获多数票的候选人获得该州所有选举人票。在2016年这一届4个摇摆州,建国同志和希拉里俩人的的总票数差不多,但是建国同志获得了遥遥领先的选举人票数。


趁跑数据的间隙随便写几句。本来谁当选我都无所谓的,不过Em支持建国,那我也跟着支持一下吧。

2024.11.6 11:00,我在杭州,守护建国。

实时数据


出海小黑板
有幸被照亮,也想成为光。