刘东亮 | 法律思维中的“软计算”和贝叶斯语言方法

学术   2024-12-18 11:09   北京  

编者按:

为落实中共中央宣传部 教育部 科技部印发《关于推动学术期刊繁荣发展的意见》精神,顺应媒体融合发展趋势,积极适应移动化、智能化发展方向,《中国法学》推出网络优先出版等新型出版模式。目前,已于“中国知网”上线2024年第6期《中国法学》知网首发文章,并于微信公众平台同步推出,敬请关注!




法律思维中的“软计算”和贝叶斯语言方法

刘东亮

西安交通大学法学院教授


本文发表于《中国法学》2024年第6期,因篇幅限制,注释省略。作者身份信息为发文时信息。


内容提要

“法律人如何思考”是学界一向关注但一直没有阐释清楚的问题。从认知科学角度而言,人类的思维是一种心智计算。由于人脑的语言并非数学语言而是统计性质的语言,并且主要是自然语言,因此心智计算是不追求精确解、富有灵活性的“软计算”,尤其是在信息不完备的条件下,软计算体现为贝叶斯方法和语言方法的综合运用。贝叶斯方法的本质是“用新证据修正概率”,而概率可通过语言概率(模糊语言值)来表示,心智计算模型因而可以概括为:软计算=贝叶斯法则+语言概率。简言之,人类的思维遵循贝叶斯法则,在认识事物时基于自身经验通常会有一个主观的先验概率之判断(初始置信度),然后根据新证据提供的信息不断修正调整先验概率而得到客观化的后验概率(经改进的更全面的置信度),并在后验概率判断的基础上,作出最终决策。这种心智计算模型,与法律人的思维过程特别是法官的判案过程高度契合。

关键词

软计算  词语计算  贝叶斯法则  语言概率  法律思维

目  次

一、从认知科学的进路研究“法律人如何思考”

二、人类心智是受心语和概率约束影响的软计算

三、法官的软计算是贝叶斯法则和语言概率的结合

四、结论与展望:科学方法的运用和自科法学的可能


有学者指出,每一门学问都有其独特的思维方式和思维特性。凡欲进入法学门径的人,首先要学会法学的思考方式,从“常人”(普通人)思维转向法律职业人(法官、律师、法学研究者等)的思维。故而,全世界的法学院都宣称要教导学生“像法律人那样思考”。

尽管法学界很早就认识到对法律思维的研究非常重要,有关的研究文献汗牛充栋,但法律人的思维方式是否有别于普通人,这一问题至今尚无定论。2013年前后,中国法学界曾经针对该问题掀起过一场热烈的学术讨论。虽然大多数学者对法律思维的独特性持肯定意见,并概括总结出其独特性的种种表现,如法律思维是规范思维、证据思维、程序思维等,但还是有部分学者否认存在独特的法律思维。十年前的学术争论至今仍未停止。近期,有学者指出,“由于法律人思维必然以法律推理为核心,且推理必然是普遍性的,所以法律人思维不可能是特殊的”,这种观点亦属于否定论。不过,其理由似有不足,因为法律推理是有特殊性的。受实践理性的支配和实践逻辑的评判,法律推理鲜明的实践性特征使得其可以归结为著名数学家波利亚所说的“合情推理”(plausible reasoning)。它与体现人类纯粹理性、适用于数学和自然科学等先验领域的普通形式逻辑之推理有明显区别。当然,科学研究不能像政治民主一样简单地“数人头”,这一问题孰是孰非,单从肯定论和否定论者的人数多寡上很难遽下结论。那么,如何解开这一长期困扰法学界的难题呢?


一、从认知科学的进路研究“法律人如何思考”

要回答“法律人的思维方式是否有别于普通人”,首先需要弄清楚“法律人如何思考”。而这一问题看似简单,实则非常复杂,其上位的、更一般化的问题“人类思维如何运作”,在认知科学上被称为“上帝最后的秘密”。近代以来,尽管科学在很多领域取得了重大突破,但有关对人类自身的认识还远远不够。有科学家指出,虽然人类大脑相当强大,已经把我们送上月球,让我们发现黑洞,认出我们是瓢虫的表亲,但还不足以向我们清楚地解释自己。我们甚至不清楚“理解”是什么意思。申言之,科学的发展有一个非常明显的特点,凡是研究有关人类本身的学科总是进展缓慢。尽管20世纪90年代被称为“大脑的十年”(decade of the brain),其间神经科学有很大进步,但整体而言,我们知道的关于人脑的为数不多的事情之一,就是它是一个神经网络系统,而我们对神经网络还没有充分理解,甚至神经元本身也没有得到充分理解。我们只是概略地知道,神经网络由数以百亿计的神经元组成。每个神经元都是一个非线性的信息处理单元,整个神经网络是一个特大规模的复杂非线性动力学系统,具有极强的信息处理能力。现在被称为“人工神经网络”的联结主义网络其实并非真正的神经网络,它们只是多多少少带有某些“神经的味道”。

由于理解人类的思维特别是法律人的思维相当困难,美国法上曾一度确立针对听证官员(行政法官)的“不探索决定者的思维过程”之原则。这种“知难而退”的做法当然不足为训,到20世纪70年代,该原则被联邦最高法院放弃而转采“探索决定者的思维过程”。不过,探索决定者的思维过程,说起来容易做起来难,因为对外部观察者而言,传统的行为主义的研究方法存在天然的不足。“子非鱼,安知鱼之乐?”尤其是,很多时候,法官在法庭上只是被动听审、偶尔发问,外界很难通过察言观色捉摸透法官的心思。正因为如此,很多国家确立了“自由心证”原则,将证据证明力的判定交给法官自由裁量。其实,不仅对法官和其他法律人如此,更一般地说,人类在思考问题时,那些“恐惧和梦想中摇曳的脑瓜”当中究竟发生了什么,那么多的奇思妙想或胡思乱想是如何产生的,迄今没有人能给出确切的答案,现有的只是一些可信程度不等的假说。这一问题/领域大概是现代科学这只大桶上最短的一块木板——认知科学亦因此而生。

检视法学界对法律思维的研究,主要聚焦于法律推理。法律推理成为研究焦点不难理解,因为推理是法律实践的核心问题。而且,在认知科学上,“推理”和“思维”这两个术语也经常互换使用。不过,法学界对法律推理的研究,侧重于推理的形式(推理的基本方法及判定推理有效的规则),对推理的本质是什么并未给予太多关注。而不对推理的本质作深入研究,就无法将法律人的思维是如何运作的解说清楚。

对推理本质的研究是认知科学关心的主题。认知科学认为,推理是思维这种认知形式的核心,是心智能力的重要组成部分。作为一门跨学科的学科(群),认知科学借助心理学、信息科学、脑神经科学和进化生物学等多种自然科学的知识帮助我们理解人类心智如何运作以及我们拥有什么样的心智(心智的反向工程)。反观法学界对法律人思维的研究,则是“法教义学和现实主义法学之间、规范法学理论和社会法学理论之间的差异比较问题……是关于‘规范法学’和‘社科法学’的比较和讨论”,其中鲜有自然科学的参与。而缺失自然科学的视角,没有自然科学这种已为实践证明可以帮助我们理解世界和人类自身的非常有用的方法,对法律人思维的研究肯定是不充分的。波斯纳在其《司法反思录》一书中想要表达的就是:在所有可用的知识和成果中,除了社会科学,法律更需要自然科学。

不过,必须指出,自然科学的研究方法无法完全照搬适用于法律领域。众所周知,理论、实验和计算是自然科学的三种基本研究方法。其中的实验方法,特别是广受推崇的随机对照实验(RCT),受制于成本过高或者伦理因素,很难适用于社会历史领域,包括法律领域。因此,本文主要借助“理论”和“计算”两种方法展开对法律人思维的研究。“理论”主要指自然科学领域久经考验而积累沉淀下来的“硬知识”,如贝叶斯法则、模糊逻辑理论等。这里的“计算”,并非算术意义上的加减乘除,而是计算科学(computing science)意义上的计算,是描述和变换信息的算法过程(必要时利用计算机进行模拟)。简言之,我们将在认知科学近年来取得的研究成果的基础上,先行阐释人类的一般心智计算过程,再结合实证调查取得的相关数据,综合运用理论和计算方法,对法律人的思维过程进行解析。


二、人类心智是受心语和概率约束影响的软计算

根据认知科学的理解,人类的思维是一种心智计算(mind computation)。与计算机的计算是追求精确解、易于数学建模的“硬计算”(hard computing)不同,人类的心智计算是一种“软计算”(soft computing)。软计算缘于人类的思维需要借助语言——准确地说,是“心理语言”(Mental language)或“心语”(Mentalese)。而“心语”主要是自然语言,天然具有模糊性特征,人类的心智计算因而是寻求近似解、富有灵活性的“软计算”。申言之,软计算是通过自然语言的基本单位“词语”进行的“词语计算”(words computing),它本质上是一种语言方法。

除了语言方法,“软计算”还需要借助概率论上的贝叶斯方法。“计算机之父”冯·诺伊曼曾经指出,按照我们的思维习惯和表达习惯,如果要描述任何真正复杂的情况而不依赖公式和数字,是极其困难的。但人类神经系统对精确度的要求并不高,人脑的语言并非数学语言,而是统计性质的语言。现代认知科学亦发现,人脑进行信息处理的主要类型是多元变量统计。也就是说,概率是思维不可或缺的工具。特别是,在现实生活中,在大多数情况下,人类面临的真实决策情境都属于信息不完备状态(法律领域尤为典型),而处理信息不完备造成的不确定性问题,概率论的其他方法(如古典概型或者频率论概率)都无能为力,只能适用贝叶斯方法。因而,人类的心智计算是贝叶斯方法和语言方法的综合。

(一)软计算的语言方法:通过语言概率进行词语计算

通常,当我们遇到“计算”一词时,首先会将其理解为算术意义上的计算,即数字的加减乘除。但是,数字计算并非人脑擅长的工作方式,当然也不是人类心智计算的首选。人们普遍认为数学很难,绝大多数人都有对数学的恐惧感(数学焦虑症),只有极少数数学家才认为“生活很复杂,数学很简单”。

1965年,加州大学伯克利分校电气工程与计算机科学系教授扎德发表具有划时代意义的《模糊集》一文,揭开了模糊逻辑理论的序幕。之后,扎德又撰写了有关语言变量及其在近似推理中应用的一系列论文,倡导使用语言方法分析复杂的人文系统。扎德指出,人文系统的复杂性排除了运用常规数学方法(不管是否借助于计算机)分析的可能。这一判断基于“不相容性原理”:随着系统复杂度的增加,对其作出精确且有效判断的能力相应递减,直至一个阈值,此后,复杂性、精确性与有效性不能共存。这意味着,对于复杂的人文系统,我们可做的,只能是借助语言方法或使用更复杂的模糊数学,运用近似推理给出近似值。

语言方法的核心概念是“语言变量”。所谓语言变量,是以自然语言或人工语言中的词语而非数字为变项的变量。一般来说,文字不如数字精确,这是其缺点,但从另外一个角度而言,这也是其优点,因为语言变量可以提供一种近似的表征方法,表示那些太复杂或定义太不完善而无法用数字精确描述的现象。例如,形容词“漂亮”是对人的复杂外貌特征的概括,“漂亮”是一个语言变量,其值构成一个模糊集合,诸如“很漂亮、相当漂亮、非常漂亮、极其漂亮”等即是“漂亮”的值,它们是“很、相当、非常、极其”等修饰语(语言算子)在“漂亮”的模糊集上运算的结果。

语言变量的另一重要功能是为定义语言概率提供了基础。例如,在日常生活中,包括在法律领域,我们对某事件可能发生或者可能不发生的不确定性的猜度,可能是下述模糊语言集中的某个元素:

{完全不可能,几乎不可能,基本不可能,不太可能,或多或少可能,完全不确定,有可能,很可能,非常可能,极有可能,几乎可以肯定}

这一关于“可能性”的模糊语言集,是本文基于扎德的模糊集合理论所作的一个创造,后文将用以分析法律程序中待证事实存在的可能性问题。需要指出的是,这一模糊语言集实际上是一个连续的无穷元素集,就像白光由七种颜色组成但七种基础颜色中间还有过渡色一样,它们是连续变化的光谱。不过,将这个模糊语言集简化为包含11个元素的离散的有限元素集,已经足以帮助我们解决现实生活中遇到的各种可能性的判断问题。因为这11个元素可以将可能性的概率值范围从0至1分隔为10个区间,最大程度上做到各种场景所需要的精细化。对人类的心智计算而言,再作进一步细分已无太大必要。凯恩斯曾指出,我们很难分辨72%的概率与68%的概率之间的区别。事实上,在制定决策时,我们很少需要知道某事件的精确概率值,能够为事件的概率排序已经足够了。尽管我们有时会尝试使用“…60%,70%,80%…”等概率数值对可能性进行量化,但这样的数值其意义更偏向于词语(并能找到对应的模糊语言值)。也就是说,在我们的思维活动中,数字计算并不普遍,除非我们需要精确地描述某一事物,否则不会使用数学语言。

与上述关于“可能性”的模糊语言集相类似,我们在生活中使用的“好”“坏”“漂亮”“糟糕”等各种描述事物状态的语词,也都是以该变量构成的模糊语言集中的某个模糊语言值作为心智计算的基础。这就意味着,用语言变量表示的概率可以取代数值化的概率,从而使人类心智运用语言方法进行概率推理成为可能。

(二)软计算的概率方法:以贝叶斯法则为基础的概率推理

作为统计学的基石,概率论的历史并不长,从17世纪法国数学家帕斯卡、费马等人对博弈游戏的研究方才开始。但概率论发展至今已相当成熟,它给人类提供了一种表示和处理不确定性的有力工具。我们生活在一个纷繁复杂且充满不确定性的世界。人类根据经验法则获得的很多知识都具有不确定性,但在掌握了度量不确定性的方法之后,不确定的知识就可以转化成可用的知识。易言之,一旦可以用概率方法度量不确定性,我们就能找到驾驭不确定性的途径,从无序中寻找有序,从混沌中寻找方向。这种新的思维工具将人类从祭司和巫师手中解放出来,不再听任偶然性的摆布。

最早严肃思考在少量信息条件下如何量化不确定性的是英国神学家兼数学家贝叶斯。贝叶斯认为,事件的不确定性可通过概率分布来描述。首先,我们根据主观判断或过去的经验对这个概率分布作一个猜测,称为“先验分布”;然后根据新证据提供的信息,修正调整最初的猜测而得到概率的“后验分布”。在贝叶斯辞世两年以后才公开发表的论文《机会学说中一个问题的解》提出的这一思想,被简化为“贝叶斯公式”:P(A|B)=P(B|A)*P(A)/P(B),亦称“贝叶斯法则”或“贝叶斯定理”。它告诉我们有了新证据时如何更新最初的概率猜测。

在贝叶斯之前,人们长期把概率理解为“频率”。频率主义者认为,概率就是某事件在长期重复试验中发生的相对频率。例如,我们连续两次抛一个硬币,可能是正面朝上两次,也可能是反面朝上两次。但是,如果我们无限次地抛硬币,正面朝上的频率会趋近50%。频率主义者理解世界的底层逻辑是,随机事件的发生,存在一个真实的、客观的概率。在有足够多数据的情况下,随机事件发生的频率会无限接近这个真实的、客观的概率。求证客观概率的频率法,不仅在试验上被验证,在数学上也被证明,此即我们常说的“大数定律”。频率主义的优点是,它提供了一种客观的方法定义和测量概率,不受个人偏好的影响。但其缺点也非常明显,它不能测度非重复事件的概率,特别是法律领域中既已发生的事实。与之相对,贝叶斯方法则弥补了频率主义的这一缺陷。贝叶斯方法将概率理解为“置信度”,是我们对不确定性事件怀抱的信念的程度。这种解释的优点是,它让我们可以为只可能发生一次的事件或者非重复事件给出概率。

贝叶斯方法的一个重要特征是迭代。贝叶斯方法不是推理一次就宣告结束,它是一个不断迭代的过程。每获得一个新信息就进行一次推理,得到一个新的判断。下一个新信息,要么进一步证实我们的判断,要么削弱我们的判断,让我们对先前的判断进行调整。这样不断微调,慢慢地结论会和真实状况越来越接近,此即贝叶斯方法中的“意见收敛定理”。而且,贝叶斯方法很适合仅有少量证据而信息不充分的情境。如果有大量数据和相对较弱的先验信息,一目了然的数据结构能适用经典统计学方法,就无须强调贝叶斯方法。但我们知道,在现实生活中,不完备信息是常态,信息充分的情况只是个别和例外(法律领域尤其如此)。因此,贝叶斯方法在各个领域都有广泛的适用空间,这使得贝叶斯方法逐渐成为一种通用的知识哲学。

贝叶斯方法的本质可以概括为:“用新证据修正概率”。根据新证据提供的信息不断修正调整最初的概率判断,听起来似乎很普通,但却在不经意间深刻揭示了人类的思维过程,贝叶斯公式正是对这种复杂思维过程的数学描述。正因为如此,数学家黄黎原称贝叶斯公式为“智慧方程”,并认为它是数学中最优美的等式,人类的理性也可以归结为贝叶斯公式的运用。


三、法官的软计算是贝叶斯法则和语言概率的结合

很多学者指出,心智是一个非常复杂的非线性问题,我们还不确切知道人类对信息进行变换的计算模型是什么。在前述认知科学和软计算理论的基础上,完全可以将人类的心智计算模型概括为“软计算=贝叶斯法则+语言概率”。简言之,人类思维遵循贝叶斯法则,在认识事物时基于自身经验通常会有一个先验判断(用语言概率表示的初始信念),然后根据证据提供的信息不断修正、调整先验判断而得到客观化的后验判断,在后验判断的基础上,作出最终决策。这种心智计算模型,与法律人的思维过程特别是法官的判案过程高度契合。

(一)“初始判断”的形成与贝叶斯法则的运用

法律现实主义代表人物弗兰克在1930年提出,法官在裁判案件时会先有一个“或多或少模糊形成的结论”,然后从这个结论出发,寻找能证实该结论的前提。如果不能发现令人满意的论证,他就会放弃该结论转而寻求另一个结论。由于这种观点与传统的三段论审判法不一致,因而受到许多人的抨击。不过,弗兰克的观点有一定的心理学和实证研究基础(他曾担任律师并在后来出任联邦上诉法院法官),故而受到很多法官出身的学者的认同。与弗兰克同一时期的美国德克萨斯州联邦地区法院法官哈奇森声称,法官出于直觉产生的“预感”是将待决问题和最终裁判连接起来的电火花,在晦暗不明的司法路口,照亮了前进的方向。作为法律现实主义的先驱,霍姆斯大法官亦在早前的“洛克纳案”中明确指出,“一般命题并不决定案件。具体决定取决于比任何言辞表达的大前提都更微妙的判断或直觉”。这几位法官所说的“模糊的结论”“司法预感”“微妙的判断或直觉”等,或可认为是贝叶斯方法中“先验概率”的不同表达。

不过,声称在诉讼程序启动之初即有“模糊的结论”,这一说法需要修正。受弗兰克的影响,很多人,无论是法律现实主义的赞成者还是批评者,都将这一说法概括为“结论先于理由而存在”。事实上,根据贝叶斯方法,这种“结论”并非真正的结论,而仅仅是一种初步的、模糊的认识。从贝叶斯视角来看,即使将其称为法官的“先验判断”,它也并非纯粹的先验。基于贝叶斯方法的迭代性,所谓的“先验判断”是法官在长期的法学教育和审判实践经验基础上发展出来的“后验判断”,它只是在司法程序的某个特定环节被称为“先验判断”。正因为如此,波斯纳认为,弗兰克所说的“模糊的结论”实际上是一种“司法前见”。他同时坚称:“法官都是贝叶斯主义者(Bayesians),尽管他们大多数人从未听说过贝叶斯定理这个词。”

至于哈奇森所说的“司法预感”,这种听起来有点玄乎的说法更难为现代科学所接受。或许,更相宜的称谓是“初步认识”或“初始判断”。按照现代认知科学理论,人脑是一个天生的贝叶斯计算器,直觉是一种快捷的概率计算方法(快速的认知过程)。在漫长的人类进化过程中,经过千百万年的自然选择,我们凭直觉能快速计算很多事件的概率。只不过,最近几百年来,人类社会飞速发展,生存环境的变迁,导致我们根据直觉作出判断时,准确性越来越差。尽管如此,人类还是依靠直觉进化出了“模式识别”的能力,即对特定物体、事件或场景进行分门别类,并从最初的“可以捕猎”和“必须逃跑”两种简单模式(生存模式/危机模式)发展出大量的模式分类。现代认知科学发现,模式识别是人脑的一种重要工作方式,是使用存储的记忆作出反应。大脑皮层通过记忆、反馈,形成恒定表征,按照世界的本来面貌建立并存储一个有关世界的模型。在特定的场景中,在外部信息的刺激下,人脑通过自联想记忆唤醒过去存储的模型解决当前的问题。申言之,当法官遇到一个案件时,总是先进行回忆,从记忆的案例库中找到一个与当前案件相似的案例,然后把该案例的知识复用到目标案件的求解之中。这一过程,实际上就是认知科学所说的“模式匹配”,起初不一定具有实质性结论,而只是案件模式的识别、提取和比对。

2023年10月,笔者所在研究团队对西安市碑林区人民法院、西安铁路运输法院、西安市人民检察院(后者主要针对有过法官职业经历的检察官)三家机构进行了调查。该调查针对法官的审判思维设计了问卷,旨在考察法官在审判实践中使用的心理语言和内心确信程度,并探索可能的量化数值区间及其对应的语言概率。问卷设计将法官的审判思维分为四个维度:“待证事实存在可能性”“内心确信程度”“证明标准的概率值表述”“案件事实存在可能性与内心确信程度的对应关系”,每个维度设置有从0到100%的量表设计。调查共发放问卷118份,回收问卷118份,有效问卷82份(后文的图1和图2即为调查结果的图形化表示,两图也同时参考了美国法官对证明标准概率值表示的相关调查)。调查发现:法官在接手一个案件时,通常“先有一个模模糊糊的认识”。在正式开启审判程序之初,他们尚说不清楚这种“模模糊糊的感觉”究竟是什么;这种感觉或认识从何而来,也难以完全解释清楚,但法官们承认,这可能与他们过去的审判经验有关。

既有的认知科学研究表明,贝叶斯方法中的先验概率(或称先验认识),实际上是认识主体在某次试验或者观察之前形成的经验积累的表述。法官在接手案件之初得出的初始判断大抵如此。而且,审判经验越丰富的法官越容易形成“正确”的初始判断,尽管在正式接触证据之前,初始判断是否“正确”没那么重要,但合理的初始判断还是有助于得出恰当的后验判断,因为合理的初始判断可以避免法官的思维走弯路(思维方向一旦走上歧途就需要大量证据才能扭转)。荷兰学者拉辛等人对“确认偏差”的研究表明,如果法官对某个问题抱有强烈的先入之见,就会倾向于支持那些与其先前信念一致的证据,无视那些相反的证据,从而陷入“认知茧房”。因而,为了使法官能够合理形成初始判断,必须确保“回避”“禁止单方接触”等排除偏见的制度得到遵守,以防止法官被个人偏私所裹挟。贝叶斯定理明确承认,人们固有的观念会影响对新证据的理解。根据贝叶斯定理,如果参数的先验概率为零,那么其后验概率总为零,不论我们可以从数据中得到什么信息。易言之,由于最初的感觉太过强烈,不论经验证据多么有力,都很难改变我们的想法。但只要先验概率不为零,即便是很小,我们也有信心将正确的信息记入后验分布。

(二)“内心确信”形成过程中语言概率的运用

按照贝叶斯法则,在初始判断的基础上,法官根据当事人双方提交的正反两方面的证据反映的信息,不断修正调整其主观上以语言变量而非数值形式表示的概率性认识,即对案件事实存在可能性的模糊语言集中某一元素(模糊语言值)的动态选择、修正与调整,经渐进收敛形成后验判断,其最终落点的心理映射即法官的“内心确信”。这一动态认知过程可用图1表示如下:

图1 案件事实存在“可能性”的模糊语言集之光谱及对应的证明标准

在法官内心确信的形成过程中,有两个关键环节:一是对案件事实存在可能性的认识,二是将其与法定证明标准进行对照和比较。

1.案件事实存在可能性与模糊语言值的选择

如前所述,法官对案件事实存在可能性的认识是一种心智计算过程。受人类“心语”的约束和影响,这种心智计算是通过语言方法借助语言概率完成的。

事实上,在法官的头脑中,存在一个关于“可能性”的模糊语言集。虽然多数法官对此不一定有自觉的意识,但这并不妨碍我们根据模糊集合理论,将其心理语言库中使用的关于可能性的各种概念和语词,经抽象而概括为一个模糊语言集:{完全不可能,几乎不可能,基本不可能,不太可能,或多或少可能,完全不确定,有可能,很可能,非常可能,极有可能,几乎可以肯定}。该集合中的11个元素,分别对应[0,1]中的11个概率值(如图1所示),从而把案件事实存在可能性的概率分为10个区间,以方便作为外部观察者的我们“透视”法官的心智计算过程。

需要说明的是,该模糊语言集的实际构成,或者说集合中包含多少个元素,与法官个体的词汇丰富程度有关。在理论上,该模糊语言集是一个连续的、无限元素集,我们根据实际需要将其简化为一个离散的、有限元素集。根据前述对西安市三家司法机构的调查,没有法官另外提出超过这11个元素的其他模糊语言值。人类心理语言的词汇容量肯定是有限的。

根据扎德的模糊逻辑理论,在图1所示的模糊语言值对应的概率数值问题上,“完全不可能”的概率值为0,这种情形在法律实践中虽然少见但确有存在。待证事实100%确定发生,即概率值为1的情形也较为罕见(“发生在法官眼皮底下的犯罪”等藐视法庭罪中或许存在),由于其证明在绝大多数情况下做不到,也并非法律程序所追求的目标,因此可用“几乎可以肯定”的模糊语言值来表示。概率值0.5对应的模糊语言值则为“完全不确定”(正反两方面的证据势均力敌)。此外,“几乎不可能、基本不可能、不太可能、或多或少可能、有可能、很可能、非常可能、极有可能”等模糊语言值分别有对应的概率数值。

需要注意的是,除“完全不可能”外,各模糊语言值对应的用数值表示的[0,1]中的各概率值,系根据模糊截割理论取截集并选择适当的阈值而得出,其目的是将判断结果非模糊化,以便在最后阶段对待证事实是否存在给出确定的答案(不能作出“莫须有”的判断),故各个模糊语言值对应的并不是一个精确的点,而是一个区间。实际上,我们很难分辨72%的概率与68%的概率之间的区别。对人类的心智计算而言,非常精确的区分既无必要,亦无可能。

在诉讼过程中,法官根据正反两方面的证据所提供的信息,不断地在内心加加减减,以计算案件事实的可能性最接近哪个模糊语言值,最终选定的模糊语言值即案件事实可能性的“后验判断”。这一过程,如同使用心智对可能性的模糊语言集之光谱的扫描。在扫描过程中,法官需要不断将待证事实可能性的落点与法定证明标准相对照,以确定案件事实的证明是否达到了法律对特定诉讼类型证明标准的要求。

2.案件事实存在可能性与证明标准的比较

与少有对法官心智计算的研究不同,学界对证明标准的研究非常丰富且相当成熟。这就给我们理解法官如何将案件事实可能性与法定证明标准进行比较提供了便利。

对同样属于模糊语言值的证明标准(“排除合理怀疑”“优势证据”“高度盖然性”等)和前述11个案件事实存在可能性的语言值进行比较,法官可以但通常不会采用量化的方法,因为词语计算完全可以妥善处理这一问题。不过,对外部观察者来说,借助合理的量化方法更容易理解其比较过程。

众所周知,各国刑事诉讼多奉行“排除合理怀疑”标准。根据早前纽约东部地区法院法官对其同僚的调查,“排除合理怀疑”的概率表示均值约为0.8567。该院法官选择的“排除合理怀疑”的概率表示,最高值为0.95,最低为0.76,但以选择0.85的居多。英美法系民事诉讼的“优势证据”标准,取值为0.5以上。大陆法系民事诉讼的“高度盖然性”标准稍弱于但接近0.7(与统计学上皮尔逊相关系数的“强相关”值非常接近)。当然,司法实践中的证明标准通常根据案件涉及的当事人权益大小进行灵活调整,并非一成不变,因此,证明标准实际上是一个动态的区间范围,而不是一个固定的点值。图1中的五个圆圈所表示的,正是五种法定证明标准的概率值区间范围。根据对西安市三家司法机构所作的调查,我国法官对“排除合理怀疑”的概率表示,最高值为1,最低值0.65,均值为0.8883。与美国法官相比,我国法官对“排除合理怀疑”的概率表示均值稍高,且两端的极值均超过美国法官。这种差异有无特殊意义,或可另行研究。

需要单独说明的是行政诉讼的证明标准。“实质性证据”是美国《联邦行政程序法》规定的行政程序(包括司法审查)的一般证明标准,该标准与我国诉讼法学上的“确实充分标准”类似。我国学者提出,在行政诉讼程序中,应当打破原来的“证据确凿”的一元化证明标准,根据案件涉及的当事人权益大小,采取高、中、低的三元化证明标准体系:“排除合理怀疑”“确实充分”“有合理怀疑”。其中,“确实充分”作为一般的证明标准,其概率值为0.7左右。限制人身自由、吊销企业营业执照、较大数额罚款等对当事人权益有重大影响的案件,亦应采用“排除合理怀疑”标准。在紧急情况下,行政机关采取留置盘问、临时检查等即时强制的证明标准为“有合理怀疑”,对应的概率值为0.25-0.4左右。

当正反两方面的证据开示完毕,随着法官的心智计算过程,案件事实的可能性会从原来的模糊认识状态,逐渐收敛至一个特定的模糊语言值(后验判断)。该模糊语言值的落点,是否落在特定诉讼类型的法定证明标准所属的区间,可在图1所示的可能性的模糊语言集之光谱上清楚地呈现。此时,“内心确信”自然形成,法官能够明确作出案件事实存在或者不存在的判断。

3.法官内心确信形成时的动态变化过程

由于法官的内心确信是关于案件事实存在可能性的模糊语言集中某一元素的心理映射,其形成的动态变化过程还可用图2表示:

图2 法官内心确信和案件事实存在可能性的关系曲线

不难理解,由于模糊性始终存在,法官将由证据证明的案件事实存在可能性与法定证明标准相对照时,会产生内心确信的程度问题。日本学者中岛弘道把法官的心证分为四个等级:第一级为微弱的心证,第二级为盖然的心证,第三级为盖然的确实心证,第四级为必然的确实心证。考虑到行政程序中有时需要适用“有合理怀疑”标准,且在民事禁令(如人身安全保护令)的申请程序中也应当适用“有合理怀疑”标准,因而,有必要在其基础上增加一个等级:合理怀疑的心证。

据此,法官内心确信的强弱程度可以分为五个等级,分别对应模糊语言集{心证微弱,合理怀疑,或有可能,高度可信,可以确定}中的五个元素。参照前述证明标准的概率值,“心证微弱”的区间约为0-0.25,“合理怀疑”约为0.25-0.4,“或有可能”约为0.4-0.65,“高度可信”约为0.65-0.85,“可以确定”约为0.85-1。

当诉讼程序开始,法官确认〔原告主张的〕案件事实“完全不可能”存在时,其心理映射为“可以确定”,法官内心确信程度为1(即图2中的a点)。随着证据提供的信息显示,案件事实存在的可能性有所增强,法官原来的内心确信程度(确认案件事实不存在的信念度)呈下降趋势,到达b(0.5,0)点时,正反两方面证据的证明力旗鼓相当,待证事实存在与否完全不确定,此时,法官的内心确信程度为0(法官完全不确定案件事实是否存在,此即为诉讼法上所说的“真伪不明”状态)。但随着更多的证据提供的信息显示,案件事实存在的可能性逐渐占优时,法官的内心确信程度(确认案件事实存在的信念度)呈上升趋势;到达c(1,1)点时,案件事实的存在“几乎可以肯定”,此时法官的内心确信程度为1。

实践表明,法官的内心确信程度随着案件事实存在可能性的增强,呈现先降低后升高的趋势,这使得案件事实存在可能性与法官内心确信的关系近似一条倒钟形曲线。但由于消极事实和积极事实的证立存在难度差异,对形成内心确信的影响程度不同,因而该曲线并非(人们常常期望的)优美的对称。图2所示的曲线的左侧部分,开始下降幅度较为平缓,其后则随着事实存在可能性的增强急剧下降。相比较而言,曲线右侧部分的上升幅度稍显平缓。该曲线左侧部分,与认知心理学上的“希望放弃曲线”高度相似,其中蕴藏有何规律,值得进一步研究。

需要说明的是,图2中的曲线系通过定性+定量方法,根据模糊逻辑理论和实证调查数据,对案件事实存在可能性和法官内心确信程度分别取模糊语言值及对应的概率数值,利用计算机Python程序,采用多项式拟合方法得出。其数学表达式为:

其中,ai为系数(常数),x是自变量(案件事实存在可能性),n是多项式的次数。经多次多项式拟合,研究发现n为18时较为贴近法官内心确信的动态变化过程。

(三)个案规范的反馈式生成和控制论原理的应用

实际上,法官在将案件事实存在可能性与法定证明标准相对照、比较的过程中,还涉及案件事实与实体规范的“相互接近和交互澄清”,这一过程既是案件事实的证明过程,也是个案规范的发现和证立过程,其中明显有控制论原理的反映。

控制论原义为“在动物和机器中控制和通信的科学”。控制论的核心概念是“反馈”。反馈是指信息的传递和返回。人们根据自己的目的,改变条件,并通过信息的不断反馈,使事物沿着可能性空间内某种确定的方向发展,即形成控制。控制论不仅深刻改变了自然科学领域,而且还开创了研究生命科学、心理科学乃至社会科学的新思维。控制论的创始人维纳指出,法律问题也可以看作通信和控制论问题;法律可以定义为“作为通信形式之一的语言的道德控制”。法律问题的控制是如何实现的呢?限于篇幅,本文仅简要讨论个案规范的证成。

众所周知,法律适用的过程并不是在案件事实完全确定以后再去寻找应当适用的法律,传统的涵摄理论已经受到批判。在实践中,法律的获取程序实际上经历了发现和证立两个阶段。因为从一个抽象的命令(大前提)直接推论出具体的命令,基本上是不可能的。以容易理解的“故意杀人”为例,刑法规定了“杀人者死”,但这一条款不一定能直接适用,因为某个案件的案情或许表明杀人属于“正当防卫”。此时,应当适用的规范变成了“杀人者死+正当防卫”。或许随着法庭调查的深入,有证据表明存在防卫过当的情形,应当适用的规范变成了“杀人者死+正当防卫+防卫过当”。最终,刑法上的多个条款在对照特定案件的事实以后经整合而成的具体规范才是应当适用于该案的法律规范,即“个案规范”。

依德国法学家菲肯切尔之见,个案规范的证成过程是案件事实与实体规范的“相互接近和交互澄清”。这一过程即法律人耳熟能详的恩吉施的名言:“目光在事实与规范之间顾盼流转”。显然,在此过程中,(法官的)大脑作为一个控制和计算的装置,会不断地对案件事实和法律规范的相关信息进行对照和反馈,直至表达案件事实的概念不能再作细分、规范也不能再更为特殊化,此即“个案规范”的证成之时。

在个案规范的证成过程中,贝叶斯方法依然在发挥作用。法官使用案件事实提供的信息,对所发现的实在法上的一般规范进行针对性地修正和调整。只是,在规范证成时,与贝叶斯方法相结合的语言变量,并非认定事实存在与否时使用的“可能性”,而是描述事实要素的“情节”“数额”等语言变量,因为这类变量所指向的事实的具体特征对个案规范的证成有实质性影响。以“情节”为例,实在法上蕴含着一个有关“情节”的模糊集合:{情节显著轻微,情节轻微,〔无特殊情节〕,情节严重,情节特别严重}。该集合中的四个元素是语言变量“情节”的值,每个元素都有对应的法律后果。一个训练有素、实践经验丰富的法官,其头脑中亦存在一个这样的模糊语言集。在个案中,法官根据案件事实的具体特征,运用“轻微”“严重”等语言算子在“情节”的模糊集上进行运算,其运算结果,即对该模糊集中某个元素的选择,影响并塑造最终的个案规范。个案规范证成之时,也是案件事实确定之时。此时,裁判结论的可能性空间大幅收敛,在诉讼程序启动之初萦绕于法官心头的那个“模模糊糊的感觉”,终于“掀起她的盖头来”而变得清晰可见。此刻,涵摄登场,判决落定。

其后,虽然还需要为判决结论寻找理由,即展开法律论证(很多学者所称的“结论先于理由”,在这个意义上才是正确的),但推理环节宣告结束。在欧美法律语境中,法律推理与法律论证一般不作严格区分(英美法传统更多使用法律推理概念,欧陆传统更偏好使用法律论证)。究其原因,传统法学多从字面含义上区分推理与论证,不太容易分清两者的差异,因此两大法系都长期存在将两者混用的情况。我国学界试图将两者区分开来,但也常常存在混淆。若从贝叶斯视角来看,法律推理与法律论证是存在时序关系的两个阶段,法律推理先于法律论证,界分的节点就是运用贝叶斯方法得出裁判结论之时。

有必要再次强调,虽然法官的思维是一种“计算”过程,但法官在裁判案件时,不太可能采取精确的量化计算方法。不能精确计算是人类大脑固有的局限性。尽管最高人民法院和最高人民检察院联合出台司法解释,要求定罪量刑时采纳定量分析方法,但这种定量方法仍然是较为简单的算术加减,并且主要是“模糊综合评判”(最大60%以内基准刑调节比例和调节结果20%以内宣告刑的确定)。申言之,法官运用的主要还是“软计算”。遵循贝叶斯法则并借助语言方法展开的软计算,才是法律人的真实思维过程。我们必须尊重人类思维规律,不能强行要求精确的量化计算(按照“不相容性原理”,实际上也做不到)。


四、结论与展望:科学方法的运用和自科法学的可能

前文指出,尽管现代科学在很多领域都取得了重大突破,但我们并不确切知道人类思维究竟是如何运作的。不过,正如乔姆斯基所言:“即使这个世界我们永远无法确知,试图理解仍是人性的证明。”毕竟,作为这个蓝色星球上最富有智慧的生物,我们还是可以根据寻获到的一些蛛丝马迹,“顺藤摸瓜”,进行合理地猜测。探索这个充满未知和不确定性的世界,我们能够做的,就是不断地“猜想与反驳”,试错再试错,这正是科学知识增长的来源。也正是在这个意义上,可以说,科学是逻辑和想象的融合。

因此,在前代科学巨人研究的基础上,我们提出的“软计算=贝叶斯法则+语言概率”的心智计算模型,在一定程度上,仍然是一种可反驳和证伪的“猜测”。其生命力如何尚有待实践的检验,或者说,端视其能否得到法官群体的认可,能否帮助法官实现理论上的自觉,趋近更合理的贝叶斯司法决策。

在研究法官心智计算的过程中,与本文的最终发现密切相关的,至少还有以下三方面的重要认识:

其一,贝叶斯方法的运用促成了法律领域中归纳逻辑的演绎化。我们知道,大多数案件的裁判过程都不是完全演绎性的,但法官们还是喜欢将其判案过程包装成“三段论”,虽然“他们知道我们知道”。这种策略之所以成功,是因为使用贝叶斯方法对不确定性进行度量,在已知事件发生结果和发生概率的情况下,不确定条件下的决策可归结为演绎逻辑的运用。也就是说,运用贝叶斯方法,使用证据提供的信息对先验认识不断修正和调整,后验概率的可能性空间越来越小,最后会得出几乎是必然的结论。这意味着,司法过程的确存在更深层次的演绎逻辑的基础。或者说,建基于贝叶斯方法之上的“概率逻辑”在法律领域发挥着重要作用。确实,可靠的推理不仅仅只有演绎推理,在可靠性问题上,贝叶斯概率逻辑与演绎逻辑是等价的。英国法学家麦考密克在20世纪70年代即敏锐地发现:归纳推理、道德推理、政策推理及其他非演绎的法律思维固然在不同程度上发挥着各自的功能,但它们最终还是要归结到演绎推理,并且不得不借助各自与演绎推理之间的关系而被定位和重新认识。不过,在我国当下的法律逻辑学理论中,几乎见不到概率逻辑的踪影,这说明现有的法律逻辑学理论需要重新检视。

其二,贝叶斯网络可以促进法律智能系统的发展与进步。近年来,深度学习(多层神经网络)取得的成果举世瞩目,并已经在法律智能系统中得到应用。然而,应用深度学习的智能系统并非真正的类人智能,其内部运作的机理如同“黑箱”,与我们对透明性的追求背道而驰。甚至连“深度学习之父”辛顿在近期的反思中都对作为深度学习基石的反向传播算法深感怀疑。最近为很多人津津乐道的法律大语言模型,同样基于深度学习架构而时常出现“幻觉”(机器根据自己对场景或上下文的“理解”生成虚假内容)。试问,在法律场景中,这种智能系统如何付诸应用?

无疑,法律智能系统与适用于商业或其他领域的智能系统的容错度要求有所不同。而且,法律智能系统还必须是对人类法律专家智能的模拟。否则,即使其能像上帝一样作出正确的神明裁判,但如果它跟人类的思维完全不同,我们只能被迫“信仰”其决定的正确性,这种智能系统也是不可接受的。我们不能把自己身家性命的决定权,交给一个跟人类思维不同的“物种”。因而,研发可信赖的法律智能系统非常重要。尤其是用于司法裁判的智能系统,必须是类人智能和类脑计算。而探索法律人的心智计算,除了要回答那个长期困扰法学界的难题“法律人是如何思考的”,其意义也正在于此。研发法律智能系统必须先梳理清楚法律人的心智计算。可以合理预见,在贝叶斯方法基础上发展而来的贝叶斯网络,将是智能裁判系统的主要技术路径和发展方向。研发这种可信赖的法律智能系统,当然不是一个纯粹的技术问题,需要从科学、法学和人文等多个维度进行探索。特别是,研究如何利用贝叶斯网络进行法律因果关系的推断,离不开法律人的深度参与。

其三,能否叩开“自科法学”之门?与前述两个命题不同,这里只是一个谨慎的提问。实际上,在“法律人如何思考”这一问题产生时,并没有给自己先验地打上“规范法学”或“社科法学”的标签。虽然法律人大多“不喜欢”自然科学的知识和方法,但是,在随着科学技术的发展而面临越来越多复杂性挑战的时代背景下,法律人根本没有“躺平”的机会。汉密尔顿法官指出:“法律必须适应日益为技术进步所推动的社会生活。对科学和人文这两种文化的任何之一,法官和律师都没有成为功能性文盲的福分。”因而,运用自然科学的知识与方法研究法律问题,是时代赋予法律学人的责任。申言之,法学研究决不能固步自封、画地为牢,把自身限定为“社会科学”,而应当勇于突破学科藩篱,凡可使用的自然、社会、人文学科的知识皆用之。

当然,使用自然科学的知识与方法研究法律问题,并非如鱼得水、轻松自如,而是面临许多实际的困难。因为对法律人来说,对科学方法从陌生到熟悉肯定有一条不短的学习曲线。仅以计算方法为例,莱布尼茨毕生心怀希望,想发现一种万能算学,能用计算代替思考。不过,他同时指出,“对概率的估计在法律领域非常有用,但精确的计算是不可能的”。这或许亦说明,与自然科学领域不同,在法律领域,“软计算”才是比较可行的出路。而对于软计算的研究,本文也只是一个初步的尝试。

展望未来,我们可以对自科法学作一个简单的勾勒。自科法学可能呈现这样几项特征:(1)研究主体的多元化。在法学领域埋头耕作的不限于传统意义上的法学家,也不限于奉行“经济学帝国主义”而到处开疆拓土的经济学家,亦有认知科学、系统论和控制论等领域的科学家的积极参与。(2)研究方法的多样化。法学研究方法不囿于传统的规范分析,也不止当下颇受推崇的经济分析或实证调查,而是可发掘法治发展演化规律的科学方法百花齐放、各擅胜场,包括理论、实验、计算和数据密集型科学发现(Data-Intensive Science Discovery,或称科学的“第四范式”)等。(3)学科分际的模糊化。法律问题的跨学科交叉研究使得著名的“耶林之问”(法学是一门科学吗?)自然消解,“科际法学”的大幕正在徐徐拉开。

中国法学
中国法学杂志社是《中国法学》及China Legal Science的出版单位。《中国法学》由中国法学会主管主办,是目前国内最权威的法学期刊之一。China Legal Science由中央政法委主管、中国法学会主办。
 最新文章