过度拟合 & 相关性误区
据 Spurious Correlations统计,美国在空间技术科技领域的投资与美国自杀(绞杀窒息等)人数高度相关(相关系数为99.79%):阿卡德酒店的收入与美国授予的计算机博士学位数量高度相关(相关系数为98.51%);美国从挪威进口的原油量与火车相撞导致的司机死亡人数高度相关(相关系数为95.45%);人均奶酪消费量与被床单困死的人数高度相关(相关系数为94.71%)。尽管了解到这些重要的事实,政治家们也没有尝试减少美国科技投资、倡导增加酒店收入、限制挪威进口原油或减少奶酪产量。显然,承认这些相关性的决策者们,拒绝相信这里面的因果联系。
大数据分析很容易走入一种叫作虚假的相关性的误区,这与回归方法的过度拟合滥用相关,过度拟合也可以看作对数据的过度诠释。以上这些例子都可以说是结论最为优美的废话。
为什么在金融市场、生育政策、种族政策、粮食政策、宗教政策、道德研究等话题中会出现那么多结论互相冲突的文章呢?某个话题在人群中引发的好奇心越大,就会有越多的人花时间研究因果,这变成了一个恶性循环,恶果就是会产生互不相容的信念。这些信念几乎完全来自对数据的过度诠释。
在资本市场的定价过程中也能够看到这样的矛盾,对同一事件人们能够解读出矛盾甚至对立的观点,从而引发分歧,对于事件驱动的资产价格波动,诉诸因果的解释也五花八门,让人摸不着头脑,从而为资产价格波动提供内在动机。
如果你记得p值操控,你就会理解,即使真正显著的效应并不存在,但只要随机地预测100次事件之间的相关性,你就有5次机会得出显著的结果。例如,经济学家们可以联系起失业率和通胀水平两个事实,并给出多达2000种不同的解释。按照p值检验的标准,你就会有100次发表科学论文的机会来详细阐述其中的因果联系。只要你掌握了国家统计局的汇总数据,并对数据投入足够多的研究,你就可以轻松地攒出一篇“严谨”的科学论文,题为《证明抗生素的滥用会制约经济发展的100个统计学证据》。
这就是滥用过度拟合的原罪。在探索言之有理的解释时,只要愿意,人们就总是能找到有显著性的统计数据作为佐证。人们甚至不会思考,其实这些统计数据的发现并没有什么神奇之处。即使每个统计数据都不太可能具有显著性,但让所有统计数据都没有显著性的难度更太。过拟合使我们滥用因果推断,我们不得不更加深刻地思考,该如何解决这类问题。
贝叶斯主义就为我们提供了一个可以解决过拟合的工具——最大后验估计(MAP)。最大后验估计在极大似然估计(MLE)的似然函数基础上,增加了一个先验概率的信息。这个增加的先验概率的作用就是正则化。这正是Lasso回归和岭回归的核心思想。正则化允许我们根据抽样来调整模型的拟合程度。
即便是这样的数学形式上的调整,也无法逆转人类社会中过度依赖“因果迷信”的情况。人类擅长创造因果联系,而并不在乎事物之间的相关性是过拟合的还是欠拟合的,过拟合只是更近一步助长了我们一厢情愿立场的自我强化。
上周四主义 & 奥卡姆剃刀
在繁多的因果解释理论中有一个相当极端的理论叫作上周四主义(Last Thursdayism)。你也可以说它是上周二主义或上周三主义。这个主义坚持宇宙是上周四创造的,但其物理表现却有着几十亿年的历史。书籍、化石、遥远恒星发出的光,以及一切(包括你对上周四之前的记忆)都是在创造之时(上周四)形成的,它们看起来都很古老。
上周四主义最厉害之处在于,它是无法证伪的,它没有违背任何物理法则,毕竟物理法则也是上周四创造出来的。无论我们将来观察到什么现象,都可以在上周四找到它出现的原因。
心理学家乔纳森•海特指出,社会科学实验一次又一次表明,人类总是先选好立场,再用自以为理性的论据来为自己的立场辩护。理性对我们来说只是一种工具,用来源源不断地制造解释。这些事后的解释不止一个,只需要一个好的立场甚至不需要任何立场,我们就会对其深信不疑。
即便是可证伪的波普尔观点,也无法否定上周四主义。在这一点上,它甚至还不如纯哲学思辨非科学方法的奥卡姆剃刀原则好用。1319年,奥卡姆的威廉(William of Ockham)提出,Pluralitas non est ponenda sine necessitate,即如无必要,勿增实体。
既然上周四主义对宇宙诞生的解释与科学家通过对宇宙的观测实验得到的解释完全一样,那么上周四主义的上周四假设就有点多余。为什么要假设上周四创建了一系列假的科学实验证据的解释呢?直接接受科学实验真实的数据不是更简单吗?
于是,上周四主义的上周四假设无法让人们解释为什么要假设并伪造并不存在的实验证据这么复杂的东西。至少上周四还要假装创建一大堆数学工具,假装创建工程学观测设备,假装创建科学家们的研究论文,这上帝也太敬业了!
正因为这个假设是多余的,所以奥卡姆剃刀原则会把它剃掉。
但是,有些人不会去关注具体的证据,从语言的表述来看,上周四解释更容易理解,我们为什么要去理解可观测宇宙在130多亿年前突然出现,然后产生了恒星、行星、生物及人类和人类的思想这些复杂事物呢?尽管奥卡姆剃刀原则表面看似简单,但其使用原则却很模糊。不同的人对奥卡姆剃刀的“简单”剃刀标准的理解也是不一样的。
主观偏见 & 贝叶斯森林
想要严谨理解理论简洁性,还是要回归科学的工具,用到算法复杂度这类有关复杂度的理论。理论工作者的贡献是不可或缺的。
但在贝叶斯主义者看来,任何有理有据的理论解释都是徒劳的,这正是没有免费午餐理论。不管你用什么办法来选择你的因果解释模型,你的方法必定在某个方面被其他的解释模型超越,这些模型一般也都会有自己的先验置信度。只要你是一个坚定的贝叶斯主义者,你就一定带有自己的主观偏见。无论你的偏见是什么,总有其他贝叶斯主义者的偏见比你的偏见能够得到更好的结果。
贝叶斯主义者确实带有偏见,但他也并不刻意隐瞒这种偏见。但如果据此认为贝叶斯思想是极端的,那就大错特错了。贝叶斯公式中隐藏着一个更加惊人的秘密,即贝叶斯公式的分母项配分函数。利用全概率公式分解,贝叶斯公式可以改写为
配分函数的前半部分重复了分子,这是关于原理论的,重要的是配分函数的后半部分,其代表了原理论之外X个替代理论的分子项。也就是说,这个配分函数可以让不同的理论可以相互竞争,以保证置信度的和总是等于1。
这个特殊的数学形式意味着,当且仅当某个理论比其竞争理论可靠得多时,贝叶斯主义者才会对这个胜出的理论赋予更高的置信度。这也代表了当足够多的证据出现时,你不能说服贝叶斯主义者接受由这些证据所归纳出的单一理论,要想达成这一点,你必须在多个备选的理论中选中最为证据所支持的那个理论。贝叶斯的观点是开放的,即便有理论的争论,贝叶斯也从不参与辩论,而会兼收并蓄地将多种竞争的观点都当作自己观点的一部分加以考量。
可以说,所有可容许的决策机制组成的集合,正是所有贝叶斯方法组成的集合。贝叶斯不是一个人在战斗,有一群互不包容的人同时在为其出谋划策。所有非贝叶斯的替代方案作为个体方法,都会处处劣于某个贝叶斯方法。互不相容的模型组成的森林一定比某棵树更加睿智。
贝叶斯主义者重视先验,也重视信息。此外,他们更重视独立的“异见”。这就是贝叶斯“森林”世界观。这种观点的另一个优势是它天然排斥阴谋论。回到贝叶斯推断的表达式:
式中,H表示假设;D表示数据;P(H)表示先验概率;P(D)表示证据;P(D|H)表示似然;P(H|D)表示后验概率。
在阴谋论者看来,这个方程可简化为
这意味着,阴谋论者往往过度地简化认知。他们通常立场坚定,顽固不化,无视新的信息(似然),过分依赖假设立场甚至既有成见(先验信息)。而贝叶斯主义者从根本上来说,对于阴谋论是先天免疫的。
实际上。在贝叶斯“森林”观点下,任何单一模型的解释都是没有因果确定性的,它们都是人们的主观思维的投射,而贝叶斯则包容了所有的观点。
可以说,纯粹的贝叶斯理论里没有因果。
目的论 & 因果解释
即便深刻如物理学,也缺少实在性和因果,只是描绘了时空中各种事件之间的相关性。例如,对于惯性力到底是什么这个问题,新的解释不断涌现:牛顿认为是绝对空间;马赫认为是宇宙中其他物质作用的结果;爱因斯坦一开始认为是绝对时空,后来认为是引力场;希格斯认为是希格斯海对加速的物质粒子的作用而产生的阻力。直到今天,这个谜团仍然没有完全解开,我们并没有找到惯性力发生的真正原因。
似乎,因果概念并不是一个基础性的概念,如果带着放大镜深入探究每个事物,那么任何100%确定的因果性都是值得怀疑的,就像对惯性力的理解一样,随着时间的流逝和科学的进步,我们会不断给出新的见解。甚至“宇宙随着时间的某种节奏演化”也被广义相对论否定了。在物理学家看来,时间的流逝只是一个与穿越时空的路径相关的函数而已。
冯•诺伊曼和纳什等数学家开创了以目的论为主要诉求的博弈论,这让我们进一步意识到,似乎因为有了人的参与,因果诉求才真正成为一个值得严肃对待的主题,就像物理学家为了理解世界的运行机制,并以此为目的发展科学理论,带来了科学的因果解释一样。
在以目的论为基础的博弈论领域,因果甚至可以是逆向的。法律和司法的主要作用不是惩戒罪犯,而是为了阻止社会成员犯罪。一切惩罚的目的都是不再出现犯罪。在这里,结果可以先于原因。
带有目的论的博弈假设人类所有个体都会做出战略性的行为,采取能够最大化利益的行为。在畅销书《自私的基因》里,里查德•道金斯就为演化生物学赋予了目的论的框架,强化了因果。如果没有目的论,这个世界的本质就只不过是没有因果的贝叶斯森林,我们的偏见赋予了每棵树不同的权重,从而产生了不同的立场和认知。
因果源于偏见,而偏见基于目的。
本文内容来自徐鸿鹄《统计信仰:驾驭无序世界的元认知》,做适当修改并添加图片,供学习参考。