在人工智能领域,贝叶斯方法几乎无处不在。
例如,语音识别早期都是通过语法分析(分析句子的主、谓、宾)来实现的,其正确率惨不忍睹,于是贝叶斯方法出现了,通过匹配概率最大的文字序列取得了很好的效果。Google 自然语言处理专家贾里尼克(Jelinek)甚至不无讽刺地说道:“我每开除一位语言学家,我的语音识别系统的错误率就下降一个百分点。”
在贝叶斯网络的应用里,贝叶斯公式中的先验概率和条件概率分别用来表达无父节点的节点信息和节点关系强度,把某种现象的相关参数连接起来,并通过贝叶斯公式结成网络。这样一来,海量的节点就代表海量的概率,有效的知识越多,贝叶斯网络展示的能量就越令人震撼。
贝叶斯方法的特点是求解过程简单,即使求解有困难,也是计算性质的。不像在经典频率统计中,问题的解决往往取决于抽样分布的选取,学习模型的成本高,费时费力。贝叶斯方法的这个特点受到理论训练较少的应用者的欢迎,但也常被古典的频率派抨击:贝叶斯把问题人为地简化了,简化导致滥用。
贝叶斯派并不认可这样的批评,而认为贝叶斯方法抓住了问题的本质,不考虑抽样分布,就可以不碰那些有关频率的无用细节。至于它可能被滥用,则是使用者的问题,与方法本身无关,何况古典的频率统计方法也有被滥用的情况。
于是频率派转移话题,开始指责贝叶斯观点最大的硬伤:人为地引入了主观概率,并将其理解为认知主体对事件发生的相信程度。由于主观概率及与之相关的先验分布不仅难以捕捉,而且与认知主体有关系,因此既没有客观性,也没有科学性。频率观点则不存在这样的问题,一个事件的概率可以用大量重复实验下事件的频率来解释,这种解释不取决于认知主体。
贝叶斯派据理力争进行反击,虽然牺牲一些客观性,但贝叶斯方法不包含频率解释,反而比频率观点更普世。例如,“后天下雪的可能性是1/6” 这个命题,用频率观点是无法解释的,但每个人都能够无歧义地理解并传达它的含义,而不必去思考是否真的存在“6个后天”。谁会傻到真的去研究“6个后天”呢。
贝叶斯派继续反驳,在涉及采取行动且必须为此承担后果的问题(所谓的统计决策问题)中,人们了解的情况不同,对问题所具有的知识不同(先验分布的不同),他们的最佳行动方案也应该不同。在这种情况下,不同的人有不同的先验分布是正常的,要求所谓的客观性反倒没有意义。
的确,在有些决策场合下,提出主观概率的主体是要承担道德、经济损失甚至法律后果的,这种后果无法依附于客观真理或无主物。在这些问题中,主观性反而成为优势。因此,主观的贝叶斯观点更适合用于个人决策。例如,企业高管在面对不确定信息时给出的投资决策就算错了,他个人也能够承担决策错误的后果。主观决策在许多场合和专业中都很有用,如医生、法官、风险投资者都需要对个体决策的后果负责。
例如,无人车道德就是一个极具争议的话题。在无人车道德困境中,人类必须面对道德审判,并尝试在杰里米·边沁的“最小伤害原则”(功利主义道德,让伤害最小,即便会牺牲一个无辜者)和伊曼努尔·康德的“义不容辞原则”(你不应该“有意识”地杀人,即便是为了不伤害更多的人)中做出选择。
无人车没有自主意识,不管做出哪种选择,都是无法独立承担道德风险的,让无人车单纯追求客观性并无意义。虽然人类做出判断是部分诉诸直觉的,但这种非理性并不一定意味着低级。恰恰相反,在资源有限的情况下,人类能从很少的信息中迅速挖掘规律,开始决策并承担后果,这正是人类主观思维能力和勇气的集中体现。
但是,贝叶斯派这个颇具说服力的答案在频率派看来,似乎仍在顾左右而言他,再次回避了“主观概率实质”的问题。
于是,贝叶斯派抛出了第三个观点:虽然频率派没有光明正大地使用先验分布,但事实上,在频率观点下导出的统计推断方法,也是某种潜在先验分布下的贝叶斯解。意思是说,频率观点并不跟贝叶斯观点对立,只是贝叶斯观点下无信息先验分布(客观贝叶斯)的特例。
客观贝叶斯的无信息先验在这里有一个积极的含义:在某些场景下,贝叶斯准则中采用这样的无信息先验,既保证了客观性,也不会使结果有较大的偏差。例如,拉普拉斯基于“不充分理由原则”给出了Flat Prior(平坦)先验。平坦先验意味着先验概率没有任何偏袒,对所有的可能性一视同仁,这很客观。
拉普拉斯提出的这一客观先验,使贝叶斯派在反驳频率派的论战中占据了极大的主动权。在现实应用中,客观贝叶斯也攻城略地。例如,2014年12月发行的应用统计年鉴的24篇文章里,就有8篇贝叶斯分析使用了客观先验。客观先验的立场是,与其不顾事实而否定先验分布,不如明确承认它的存在,哪怕它是无信息的,至少不会得到更差的结果。在这个基础上,只要给出一个稍令人信服的先验分布,往往就能够得到一个更令人满意的结果。拉普拉斯的这个观点在一个多世纪以来都没有遭遇真正的挑战。
从20世纪80年代开始,尤其是进入电子计算机时代后,贝叶斯推断接连破除了禁锢自身发展的两大障碍:一是利用客观的先验拓展了适用范围,如以指数形式“进化”先验置信度的Adaboost算法,在面对足够多的数据时,其主观性其实并不随意;二是发明了现代的通用后验计算算法——马尔科夫链蒙特卡洛方法(Markov Chain Monte Carlo,简称MCMC),解决了后验分布通常要做的高维积分计算问题。客观先验和MCMC为面临复杂数据分析情况的统计人员提供了一个极具吸引力的方案。与频率派严格的分析相比,贝叶斯推断几乎可实现自动化。
贝叶斯方法凭借这个“组合拳”,打了一个漂亮的翻身仗。但挑剔的频率派仍不打算放弃对抗,并提出了有史以来针对贝叶斯派最尖锐的批评:贝叶斯方法也要以样本分布作为理论的出发点,这种分布通常都是在频率意义下解释的,贝叶斯派既然彻底否定频率派,为什么又要使用频率派的工具呢!
是啊,经验贝叶斯里面有Fisher的矩估计、极大似然估计思想的影子,客观贝叶斯里面也有Fisher信息量的影子,这些都是频率派的工具。
多轮交锋之后,这个问题才真正戳中了贝叶斯派的软肋。
如果要做一个彻底的贝叶斯论者,就必须把样本分布看作刻画样本取各种值在主观上的相信程度,而不应在无穷多可能样本的背景下去考察,因为这将带来频率的解释。但是,贝叶斯方法必须以样本分布作为理论的出发点。这一矛盾是无法调和的。贝叶斯派只能把样本分布当作隐含的方法,却不能显性地解释这种方法。样本分布只有一种频率的解释,对于这个概念所做的任何探讨都将有利于频率派占据主动地位。
最终,贝叶斯派陷入两难的境地,看来纯粹的贝叶斯论者是做不成了,两大派别你中有我我中有你才是有效理论最终的归宿。
回望这场史诗级的论战,频率派和贝叶斯派观点的碰撞令人着迷。
聪明而勤奋的频率派的观点是具化分拆,各个击破。
智慧而灵活的贝叶斯派对世界的看法同样是复杂的,但却以不变应万变。
频率派是理性主义者,酷爱抽象思考,习惯对世界建模。
贝叶斯是经验主义者,无限地好奇、惊讶和敬畏自然。
频率派是古希腊人,擅长形而上学的思辨。
贝叶斯派是古巴比伦人,是“黑箱预测”的高手。
频率派是大陆法系,公义是立法者,是大法典,利用成文法明辨是非。
贝叶斯派是普通法系,公义是大法官,是陪审团,通过案例指导裁决。
频率派像刺猬,知道一件大事情,即纷繁的表象之下亘古不变的规律。
贝叶斯派像狐狸,知道很多小事情,天性多谋,总是随时修正自己的看法。
频率派审视自己,是柏拉图叩问灵魂的回响:我是谁,从哪来,到哪去。
贝叶斯派关注众生,是安兰德读懂自由:无物可求,无望可待,无所依傍。
高估或贬低任何一派都毫无意义,思想就像周期性运动的钟摆,偏离一方越远,回归另一方就越快,此起彼伏,周期性振荡。不同的哲学和方法论都有其自身存在的道理,它们各有各的法则、研究对象和哲学思考。
两派所代表的方法论或许将继续贯穿整个人类的认知进步史。
本文内容来自徐鸿鹄《统计信仰:驾驭无序世界的元认知》,做适当修改并添加图片,供学习参考。