一部部科学经典著作,犹如人类文明史上璀璨的里程碑,奠定了现代科学基石,铺就了人类进步的阶梯。为让更多读者感受科学魅力,北京市科学技术协会推出“科学阶梯”专栏,对科学经典著作进行深入诠释。
20世纪70年代,一位物理学家参加了主要由计算机与航空航天行业的统计学家参与的可靠性与质量控制研讨会。在会上,他做了题为“置信区间与贝叶斯区间”的主题演讲。他举了几个简单、常见的显著性检验问题,并对使用正统的置信区间方法和贝叶斯方法的解答进行对比,得出的结论是:对于每一个问题,正统的置信区间方法给出的答案显然违背普通人的直觉,而贝叶斯方法得出的结论则合情合理。这让台下炸开了锅。
“下去吧!”很多人喊道,“这完全是胡说八道!像置信区间这种理论牢靠且有效的方法怎么可能有这种表现?你简直是在诽谤伟人!奈曼绝对不可能提出在如此简单的问题上失效的理论!你如果连简单的算术都不会,就没有必要跑到这里来做这样的演讲!”
于是,演讲者被轰下了台。在气氛稍微缓和之后,他再次上台,向大家一步一步地展示得出结论的数学计算过程。在场的人都斜视着他,企图第一个找到他计算过程中的错误。整个检查过程持续了整整4小时,但是没有人能发现其中有任何错误,因为问题和计算都很简单,他得出的结果显然是对的。于是,很多人的反应变成了:“我的天啊!为什么原来没有人告诉我这个呢?我的教授和教科书从来没有提到这一点!看来我得回去重新检查一下许多人所做的工作了!”
由于得不到普遍接受正统统计学教育的杂志编辑的认可,这个会议报告的内容直到十年后才得以正式发表,而这位演讲者正是《概率论沉思录》的作者,物理学家埃德温·汤普森·杰恩斯。
他既没有获得过诺贝尔物理学奖,甚至也不是美国科学院院士。如果不做考证,我们大多数人可能也不知道他的博士论文导师是著名物理学家尤金·维格纳(1963年诺贝尔物理学奖得主)。他生前的主要身份只是圣路易斯华盛顿大学和斯坦福大学教授,所以他在20世纪70时代上台演讲时也不可能因为带着名人或头衔光环而受到任何优待。
他在物理学上的主要贡献是1957年提出热动力学的最大熵原理,以及1963年提出量子光学的杰恩斯–卡明斯(JaynesCummings)模型。但是正如作者所言,他对于理论物理学问题的兴趣只是短暂的细枝末节,最长久的兴趣还是在概率论上,并且在该领域中进行了长达40年的持续探索与思考。这种持续探索与思考的结晶就是这本遗著《概率论沉思录》(Probability Theory:The Logic of Science),其主要思想是将概率论视为传统亚里士多德逻辑的扩展。
在这种思想框架下,布尔逻辑只是概率逻辑的一种特殊情形。众所周知,传统数学是以演绎逻辑为基础的,而概率论却可以作为科学推断(归纳逻辑+演绎逻辑)的理论基础。
这样,作为扩展逻辑的概率论就可以融合归纳推理与演绎推理的统一理论。
有人可能会问:且慢,概率论不是一门数学学科吗?它与科学有何相关?的确,概率论的公理化是20世纪数学方面最重要的进展之一。现代概率论的诞生以柯尔莫哥洛夫1933年的奠基性著作《概率论基础》(Foundations of the Theory ofProbability)的发表为标志。同时,现代统计学也在20世纪中如火如荼地发展,其代表人物是皮尔逊、费希尔、奈曼等。概率统计可以说是机器学习、人工智能最重要的基础之一。甚至可以说,概率论以及统计学对现代社会的影响无论是在思想层次还是现实层次,绝不亚于20世纪中出现的相对论与量子力学。
希尔伯特在1900年提出了23个待解决的数学问题,其中的第6个问题是用数学的公理化方法推演出全部物理原理,包括概率和力学。概率论的公理化问题在1933年由苏联数学家柯尔莫哥洛夫解决。从此,概率论成为一门数学学科。
但是到目前为止,物理学包含力学的公理化工作并未完成,而且很多人相信这可能永远无法完成,即使完成,也没有什么实际意义。毕竟物理学与数学本质上还是存在很大差别的:物理学家使用数学作为工具,却又清楚地知道物理理论的正确与否不在于逻辑上是否自洽或成立,而在于是否与实际相符。
值得注意的是,概率论公理化之前经过了三个多世纪的发展,如本书作者所说,主要是以数学物理学家(丹尼尔·伯努利、拉普拉斯、高斯、勒让德、泊松等)为主体进行的。物理学家(哈罗德·杰弗里斯是个例外)基本上没有参与20世纪初概率论及现代统计学的蓬勃发展进程:皮尔逊、费希尔有生物学背景,奈曼主要是数学家。
这主要是由于当时的物理学家都忙于相对论与量子力学的研究,等到他们感到在这两个领域已经没有太多重要的事情可做,将目光转向统计学时,却发觉统计学已经被正统统计学家所主宰,但是内部仍然派别林立,对很多问题没有统一的认识。这在物理学家看来是非常难以接受的:如果一门所谓科学的理论在内部都缺乏统一性,我们又该如何相信它的真理性呢?
哈罗德·杰弗里斯在1939年完成的《概率论》(Theory of Probability)是贝叶斯概率论的经典之作。当时,贝叶斯思想还少有人知,遑论得到欣赏和认同,而正统统计如日中天,该书出版后在很多年之内在主流学术界影响甚微,甚至是受强烈批评的对象。
正统统计学家对于贝叶斯主义者最主要的批评是他们使用的“先验”具有主观性,缺乏基本的“科学客观性”。作为杰弗里斯思想继承者的杰恩斯,对杰弗里斯的辩护散见于本书很多章节中。贝叶斯统计阵营内也有几个不同的流派,杰恩斯可以说是客观贝叶斯派的代表人物。在客观贝叶斯主义者看来,“先验”主要与信息相关,不同人掌握的信息可能不同,这很正常。
这些不同的“先验信息”是客观存在的,没有任何主观的成分。而且先验信息无处不在,这对于物理学家来说几乎是显而易见的。费希尔有句名言是“让数据自己说话(Let the data speak for themselves)”,但是数据不会自己说话。在面对数据时,物理学家掌握的先验信息至少还有已知的物理定律,他们会同时利用已知理论模型和数据进行分析和推断,而不是仅仅依靠数据。杰恩斯认为,有生物学背景的统计学家之所以不认同先验,是因为他们主要应用统计方法于生物统计问题上,而生物学中本来就没有什么说得出口的理论。
有时被当成数学物理学家的杰恩斯当然对于数学家没有什么成见。但是他认为,如果采取本书的框架,概率论的应用范围可以比柯尔莫哥洛夫的概率论更加广泛。现代社会中的很多人对数学家有着莫名的崇拜,普遍认为数学家是这个世界上最聪明的人。
但是,物理学家一般不属于对数学家顶礼膜拜的群体,因为有追求的物理系学生所学的数学教材通常与数学系学生所学的教材是同等难度的,而且他们也会深刻理解科学与数学之间的区别。因此,物理学家一般不会仰视数学家,而只会平视他们。杰恩斯不认为使用集合论和测度论来重构概率论有多大的实际意义。
他对于基于测度论的概率论的批评主要是由于现代测度论引入了实无穷的概念和理论,不谨慎的使用会带来很多悖论。引入测度论的确增加了概率论的“数学严格性”,但是这不能增进我们对于概率本身的理解,也通常无助于实际问题的解决。
虽然贝叶斯统计现在没有像20世纪那样受到普遍歧视,但是国内的绝大多数数理统计学教材主要还是在传统频率派统计的框架下介绍统计学,最多在简单介绍一下贝叶斯统计后增加“贝叶斯派和传统派的争论仍将长期存在”“先验分布的客观性常引起争议”“实际贝叶斯方法还有很多困难”等评价,甚至还会加上一句“贝叶斯统计大体仍处于弱势地位”。
但是实际情况并非如此。贝叶斯统计经过几代贝叶斯主义者艰苦不懈的努力,到目前为止已经为自己争夺了数理统计学的至少半壁江山。国际流行的概率论教材《概率导论》(迪米特里·伯特瑟卡斯、约翰·齐齐克利斯著)中有两章介绍统计推断:一章是贝叶斯统计推断,另一章是经典统计推断。该书第1章则一开始就指出,作为信念程度的概率解释有时与频率解释同样必要且有用。
著名的机器学习教材MLaPP(Machine Learning:A Probablilistic Perspective)同样用贝叶斯统计和频率派统计两章来介绍统计推断,甚至是以贝叶斯视角来概括整个机器学习,只是为了避免意识形态的争论,而选择了“概率视角”(probablilistic perspective)而非“贝叶斯视角”(bayesian perpective)的用词。
另一本经典书籍PRML(PatternRecognition and Machine Learning)也被誉为贝叶斯机器学习的圣经,因为它不仅向我们展示了一切都可以用贝叶斯解释的信仰,并且对于几乎所有重要经典机器学习算法都描述了其对应贝叶斯版本(贝叶斯线性回归、贝叶斯逻辑回归、贝叶斯神经网络等)。
可见在国际主流概率统计与机器学习界,贝叶斯统计学并不是还处在“弱势地位”这么简单,而是大家越来越意识到其重要性,并且会作为与频率派统计并列甚至更重要的地位来做介绍。
杰弗里斯的《概率论》被称为现代贝叶斯统计的奠基之作,而这本《概率论沉思录》则是对杰弗里斯概率论的直接继承和发展。
概率论在这个时代的重要性无论再怎么强调都不为过。现在所谓的人工智能革命都可以说是概率革命的延续。前面已经提到,20世纪概率论的数学化及概率统计后续发展的现实重要性绝不亚于相对论与量子力学的出现。按照本书的阐述,概率论将归纳推理形式化和定量化,使得我们拥有了一个强大而重要的推理工具。
概率论作为数学是独特的,因为它虽然也像其他数学理论一样通过演绎推理来发展,却可以被看作在描述归纳推理的过程。作为其应用的统计学一般会被认为是自然科学而非纯数学(至少对于应用统计而言是如此)。
因此可以说,这本《概率论沉思录》既是一本数学书,也是一本科学哲学书,还可以被看作一本逻辑学书,甚至一本生活智慧书。
一般的科学或数学书对于个人的日常生活其实是没有多大实际作用的,更多的是作为科学研究或技术应用的辅助。概率论却不相同,它可以帮助我们更好地认识这个世界并且更好地生活。
从概率的视角看世界也会产生不同的认知。比如,从概率论的角度来说,我们只能以概率的方式认识世界,这种认识不可避免地带有不确定性。所谓科学理论,只是解释世界的一种模型而已。
公认的科学理论只是目前科学共同体认为正确概率最高的模型。模型总是有局限性和适用范围的,往往只是近似描述了真实世界某个方面的特征。以物理学为例,牛顿力学已经成为基础科学,确定性很大,但是现代宇宙学的不确定性却很大。
《概率论沉思录》
概率论作为逻辑的延伸,是所有科学推断的基础。《概率论沉思录》收集了概率统计的各种线索,将概率和统计推断融合在一起,用新的观点生动地描述了概率论在物理学、数学、经济学、化学和生物学等领域中的广泛应用,尤其是阐述了贝叶斯理论的丰富应用,弥补了传统概率论和统计学的不足,并揭开了众多悖论背后的玄机。