历史的贝叶斯维度

2024-07-31 18:30   上海  

本文的灵感来源于沉思者和友人的一次辩论,其中沉思者提出了如下极具攻击性的论点:

历史研究的唯一目的是对于未来有所启示。

虽然上述观点并不全面,但是最终我们一致认可历史研究的目的无非就是两个:

史实(即发生了什么)。

历史规律(即对未来的启示)。

先把研究史实的部分按下不表,考察历史规律的形成过程:

可以不失一般性地以“大灾之后必有大疫”这一历史规律为例:

1.1.          人在没有证据支撑的情况下,对于上述理论真假无从得知。

1.2.          人接触到“某年某月某地发生地震,次月开始当地出现霍乱流行”的史实。

1.3.          根据该史实,人更倾向于认定上述理论为真。

1.4.          重复2-3的过程,人在接触到大量类似案例后,越来越有理由认定上述理论为真,从而使之成为一个历史规律。

注意到上述过程可以毫无困难地套用贝叶斯定理:

贝叶斯定理的形式化表述为:很多事物的属性无法直接确证,人只能通过可能揭示该属性的经验在内心中形成该属性的概率分布。每次相关经验都会修正该内在的概率分布。在修正之前人对该属性的信念称为先验概率,修正之后则称为后验概率。

因此在上例中,1即先验概率、2即相关经验带来的修正、3即后验概率

用更严谨的数学语言表示:

把“大灾之后必有大疫”用数学的语言表述为:在严重地质灾害后,发生传染病流行的概率为θ.

2.1.          在没有证据支撑时,θ的先验概率分布f(θ)为0-1之间的均匀分布。

2.2.          某次地质灾害后发生疫情的史实x0在不同的θ取值下的概率为f(x0|θ)。其中x0=1.

2.3.          根据贝叶斯定理,人在考虑史实x0之后相信的θ的后验概率分布为f(θ|x0) = f(θ) * f(x0|θ)。相比先验的f(θ),概率分布更靠近1.

2.4.          贝叶斯定理可以连续套用,因此人在考虑大量史实(x0, x1, …) = x之后相信θ的后验概率分布为f(θ|x) = f(θ) * f(x|θ),其中f(x|θ) = f(x0|θ) * f(x1|θ) * …
由于x中大多数的值都为1,因此后验概率基本集中在1附近。

在上述“翻译”的过程中,可以看出把历史的贝叶斯框架从单个史实x0向许多个史实 x 推广的过程。类似地,上述推理过程虽然仅限于一条历史规律“大灾之后必有大疫”、一个参数θ,但是完全可以向许多个历史规律(θ0, θ1, …) = θ推广:

3.1.          不妨假设整个世界按照有限个(潜在的)历史规律θ运行。(考虑宇宙的时空有限性,可能的历史规律数量虽然很多,但毕竟是有限的)

3.2.          在没有任何史实支撑下,上述每一个规律θ0, θ1, …成立的先验概率f(θ0), f(θ1), …都为0-1的均匀分布。

3.3.          世界的一切史实为(x0, x1, …) = x。(同样很多,但毕竟也是有限的)

3.4.          因此可以说,根据一切史实进行贝叶斯修正后,得到的所有历史规律即为后验概率f(θ|x) = f(θ) * f(x|θ).

注意上述数学语言只是为了论证方便,实际上不会有任何历史研究者会声称找到上述所有“函数”中的哪怕一个。但是以上3.1-3.4建立的历史的贝叶斯框架却可以包容和解释现实中许多独立乃至冲突的历史观点:

首先,按照上述框架,一切可以修正人对于世界运行规律认识的事实都可以归为历史,因此该贝叶斯框架可以广泛地适用于人文史、社会史、科学史等分支领域。

更重要的是,上述框架可以直观地解释不同史观之间“鸡同鸭讲”的冲突。上述贝叶斯方法虽然能够根据给定的参数θ在一切史实(观测结果)的基础上得出θ中每个元素最合理的概率分布,但是无法冲破给定的θ的界限。不同的给定这些参数(潜在的历史规律)的方法得出的后验概率分布(证实的历史规律)当然不同。这点恰恰反映了不同史观之间最本质的矛盾:根据一种史观得出的历史规律θ0,可能根本不在另一种史观的考虑范围(即初始参数范围θ’)之内,因此根据后一种史观完全无从讨论θ0是否成立,就出现了“鸡同鸭讲”的现象。据此,在历史的贝叶斯框架中,史观就可以明确地定义为“给定所有世界的潜在运行规律(参数)的模型”。

沿着这个思路,可以得出一个重要的推论:从一种史观的角度不可以评价另一种史观的优劣,尤其是不能以一种史观为依据批判另一种史观“犯历史错误”。但是不同的史观之间是否有优劣之分呢?大抵还是有的。用最简单的数学模型举例:对于抛物线状分布的数据,使用线性拟合是不论如何也得不出好结果的,而使用二次拟合则显然更好。对于复杂世界的运行规律而言,不同的模型(史观)得出的结论和事实的距离更可能天差地别。因此,对于不同史观优劣的评判必须跳出单一史观的框架。举个例子,对于把世界简单理解为由野蛮向文明发展的史观,可以批判其无视了世界运行的复杂性,无异于对于高维度数据作线性拟合。这种批判的依据是基本的数学理论而非其他的史观,因而是合理的。但是对于更多复杂度更高的史观而言,评判其优劣或许就只能依靠实证了——从计算的角度上讲,大概相当于把部分史实当作“训练集”、另一部分当作“验证集”。

此外,历史的贝叶斯框架提供了一种修正历史观的指导方法:在考虑大量史实后,如果得出的历史规律仍然不符合现实,则大概率是史观本身有缺陷。这一点在科学史上尤其显著:在已有理论不能解释新的发现时,则大概率是理论体系本身的问题,需要提出新的理论。

最后,虽然以上主要讨论了历史的贝叶斯框架在从史实到历史规律的这一步中的运用,但该框架完全也可以运用到从史料向史实的证明过程。换言之,人可以根据史料修正其对史实的认知。把这两个贝叶斯意义下的推理过程结合可以得到一个二阶层的贝叶斯模型(hierarchical Bayesian model)。此处不再絮论。

总而言之,本文从单个史实佐证单个历史规律推而广之,以数学模型为媒介,建立了一个贝叶斯定理意义下根据史实修正认识、得到历史规律的总体框架。该框架可以包容各种不同史观并解释其冲突,因此不妨称之为“贝叶斯元史观”。虽然该框架高度形式化,并不符合历史研究的实际思考过程,但是从中推出的各种推论却具备相当的合理性(例如以上加粗部分)。水平所限,更深一步的讨论就留给更加内行的读者朋友们继续进行了。


封面图:阶层式的贝叶斯模型。图源https://doi.org/10.1016/j.ymssp.2015.03.026

Meditatio
在疯狂中沉思, 在沉思中疯狂. Sanitas insana, Sapientia stulta.