新文速递|刘庄:幻象与本相——法律人工智能及其他

学术   2024-04-19 10:32   中国香港  

刘庄

香港大学法律学院副教授


本文将澄清我国法学界对数据法学相关学科的两个误解。第一,认为计算法学、数据法学、法律人工智能是全新学科,有着新的方法和范式。出现这样的认识可能是由于不熟悉法律实证研究,特别是定量研究的学术脉络;更本质的,是因为不熟悉统计学、数据科学和计算机科学间的关系,以及近四十年来,这些学科在社会科学中的渗透和应用。第二,对法律人工智能有着幻想化、科幻化的期待,不能理解非通用人工智能(也即当前所有的人工智能)在法律中应用的作用范围及限度。


本文将指出,人工智能既难以处理较复杂的法律适用问题,也难以处理无所不在的事实判断问题。在破除幻象的基础上,文章将结合实际案例,探讨数据科学和人工智能对法律研究和实践切实可能的贡献,特别是对测量和理解法律的运行效果及科学立法的作用。法学应当直面真实问题,破除狭隘的学科壁垒和门户之见,学习和发展交叉学科;必须下苦功夫了解其他学科的基本知识和原理,避免被新词汇、新概念而非新思想所牵引。




本文首发于《中国法律评论》2024年第2期“思想”栏目(第128-138页)为阅读方便,脚注从略。



目次


引言

一、多个名字下的同一领域

二、法律数据科学、法律人工智能的学术源流

三、机器可能替代法官吗?

四、数据科学和人工智能对法学的可能贡献

结语



引言


2023年,随着ChatGPT等大语言模型面世,人工智能再次引起大众的热切关注和议论。文本是法律的表达方式,生成文本(“写文件”)是法律领域的核心工作。不少人感到,ChatGPT等生成式人工智能将在法律领域有着广阔的应用前景。而实际上,早在ChatGPT面世之前,数据法学、计算法学、人工智能法学等概念已经在我国大为流行,业界期待大数据和人工智能为法律实践带来根本性的变化,法学界也希望借助新的研究议题与研究方法,进行“弯道超车”,做出世界领先的学术研究。


只不过,在这些憧憬之下,法学界对数据科学和人工智能本身似乎并不了解,对于人工智能的基础——数据和算法的具体知识,也一直兴趣寥寥。就此,我们对法律大数据和人工智能的期盼,有多少是基于幻象,多少是基于真相,让人难以分辨。


本文首先用实际研究案例说明,计算法学、数据法学、法律数据科学、法律人工智能等,只是同一研究领域、同一研究方法的不同名称。离开数据,算法和人工智能无从成立;所谓人工智能,也只是一系列用以处理数据的算法的统称。不论我们如何称呼以上领域,其核心都只是使用数据和算法研究与法律相关的问题。


进而,我将着力破除我国法学界对相关学科的两个误解。


第一,认为计算法学、数据法学、法律人工智能是一个近年来兴起的学科,或者说,认为这是一个全新学科,有着全新的方法和范式——因而,我们不需要太多学科积累、不必要细读太多过往文献,只要“大干快上”,就能“弯道超车”,甚至开宗立派。存在这种误解,很可能是由于不熟悉法律实证研究,特别是定量研究的学术脉络。从根本上来说,这又是因为不熟悉统计学、数据科学和计算机科学间的关系,以及近四十年来这些学科在社会科学中的渗透和应用。就此,本文将梳理学科发展脉络,厘清相关学科和研究方法的渊源。


第二,过高估计人工智能对法律的可能影响,甚至是对法律人工智能有着幻想化、科幻化的期待。这大体还是因为不肯下苦功夫去了解人工智能的基本知识和原理,太容易被新词汇、新概念而非新思想、新方法所引诱。就此,本文将探讨大数据和人工智能在法律中应用的可能范围及其局限,指出人工智能既难以处理一般化的法律适用问题,更难以处理实践中无所不在的事实判断问题。


在破除幻象的基础上,本文将探讨数据科学和人工智能对法律实践和法律研究切实可能的贡献。与大部分法律人工智能的从业者不同,本文认为,数据科学和人工智能对法律的最大作用是在立法上。对数据的分析和研究,能够帮助我们更好地测量和理解法律的运行效果,进而使我们进行更为科学的立法。此外,我将用实际案例说明法律数据科学和人工智能在提供法律决策辅助和自动化工具中的作用。


总结而言,面对我们身处的数据和智能时代,法学很难再使用传统的体系和教义分析、“折中说”、比较法等方法解决问题;或者说,这些方法的说服力将越来越弱、听众将越来越少。法学应当直面真实问题,破除狭隘的学科壁垒和门户之见,学习和发展交叉学科,下苦功夫去了解其他学科的基本知识和原理。只有“抓住事物的根本”,研究才能彻底,才能真正说服人、真正掌握群众。


多个名字下的同一领域


2018年,经济学权威期刊《经济学季刊》(The Quarterly Journal of Economics)刊发了《人类决策和机器预测》(Human Decisions and Machine Predictions)一文。文章关注一个很具体的领域——美国法官的保释决策。在美国,警察拘留犯罪嫌疑人后,保释法官需要在很短的时间内决定是保释犯罪嫌疑人,还是将其直接收监、等待正式开庭。《人类决策和机器预测》以严格的方式证明,在保释问题上,机器能够作出比法官更好的判决。具体而言,作者使用了美国一个州的保释案件数据,用随机森林算法预测每名犯罪嫌疑人保释期间的再犯以及逃逸风险,最后发现,算法的预测比法官的判断更为准确。


从结论读来,可能会更好理解研究的贡献——“我们的研究结果意味着,在保持监狱在押人员规模不变的情况下,(以机器替代法官进行决策)将减少犯罪率达20%”,“这意味着如果将我们的算法推向全国,约等于为全国增加了两万名警察”。换成更直白的话来说,有了这一算法,美国可以解雇全部保释法官,社会可能变得更为美好。


法律决策向来被认为是最为复杂的人类决策之一。虽然《人类决策和机器预测》只将研究限制在法律决策的一个细小领域,但无论如何,机器能够超越法官,还是让学界感到震撼。


按照法学的思维习惯,我们可能需要给这一研究贴上标签,归入一个部门法学的领域。只是,我们如何给这一研究划分领域呢?可以看出,这一研究当然需要数据和数据科学——做预测的基础便在于有着大量的保释数据。因而,我们可以将其称为数据法学或者法律数据科学。做预测当然也需要计算和算法,因而似乎也可以将其归属为计算法学。


文章中使用了机器学习的方法,这是当今人工智能技术的核心,或者说,人工智能的主要功能就是做预测(即便是生成式模型,其原理也只是在做语言的预测)。所以,将研究归为法律人工智能也是合适的。只是,这样一来,法学似乎就没法定义这一研究的具体学科了,十分棘手。


试想,以上讨论与证券监管属于商法还是属于经济法范畴的学术争论,有何不同?


抛开这些法学讨论,我们都能感到,这一研究使用了严格的方法,解决了真正的问题,恐怕将其归属为哪个学科并不重要。如果足够敏锐,我们也能感到,计算法学、数据法学、法律数据科学和法律人工智能等,只是同一领域的不同名称而已。实际上,离开数据,算法和人工智能无从成立——所有的机器学习都是基于数据的;所谓人工智能,也只是一系列用以处理数据的算法的统称而已——而那些类似人形的机器,并不是人工智能的实质。不论我们如何称呼以上领域,其核心都只是使用数据和算法研究与法律相关的问题。


在这个领域,我们显然需要交叉学科,这又尤其需要我们破除狭隘的学科壁垒思维,也就尤其要注重研究实际问题、避免纠缠概念。《人类决策和机器预测》由五名作者合作完成。其中三名是来自康奈尔大学和斯坦福大学的计算机科学家,两名是来自芝加哥大学和哈佛大学的经济学家。从作者构成来看,人们不免狐疑:为什么一项人工智能的研究,需要经济学家的参与?而以经济学为代表的社会科学,难道不是仅关于社会现象的学科,甚至在不少人看来是比较“软”的学科吗?人工智能似乎更“硬”,包含着更多的科技成分?同时,一项与法律相关的重大研究突破,却并没有法律学者的参与,这不免让人反思法学在当今智能时代的尴尬处境。


实际上,上述研究的核心难点(第二类统计谬误及因果关系推断)是由经济学家而非计算机科学家解决的,这充分体现了当代社会科学和自然科学间高度的交叉融合。


如今,包括经济学、政治学和心理学在内的不少学科都将自己的研究领域定义为对人类决策行为的探究;在方法上,他们大多以物理学为标杆,模仿物理学在过去几百年来的成功经验——使用数学模型进行理论建构,使用统计学方法对理论命题进行实证分析和检验。就此而言,法官如何决策(一个实证问题,或者说实然问题),以及法官应当如何决策(一个应然问题),便被收编于一般社会科学的研究范围内。


整个现代社会科学的发展布满了类似方法的扩张,社会科学研究者习惯于将其称为“经济学帝国主义”——目前我们用以研究社会现象的很多数据科学即定量工具便是经济学家开发的。但其实,这本质上是数学和统计学的扩张,是自然科学方法的“帝国主义”。因此,要完整地了解人工智能和数据科学在法律中的前沿应用,我们不仅要了解计算机科学,更要了解以研究社会生活和人类决策为目的的各种方法,包括以预测为目的的机器学习方法,以及以因果推断为目的的社会科学方法。


一个让人不安的事实是,无论是相比于自然科学,还是相比于社会科学其他领域,法律人已经落后了。机器作出比法官更准确的决策,这无疑是重要技术突破,但法律人却并没有参与到这一工作中。实际上,法律人鲜少在重要的法律科技领域作出突出贡献,甚至,真正懂得法律科技的法律人,也为数寥寥。


如果未来是一个由智能科技主导的时代,如果机器和人工智能真的可以逐步取代法官,那么,未来的法律人该如何自处?法律人恐怕不能只埋头于自己熟悉的领域,用教义学、“折中说”、比较法来应对未来时代的挑战,而应更加以问题为导向,学习不同学科的视角和方法。法学注重的概念辨析、体系分析,在大数据和人工智能的时代,并不可能有着太强的说服力。


法律数据科学、法律人工智能的学术源流


从我国研究现状来看,我们存在几个对相关学科的重大误解。其中之一是认为计算法学、法律数据科学、法律人工智能只是一个或一些近年来兴起的学科。而实际上,这些学科诞生已久,有着自身的学术渊源和发展逻辑。


社会科学的定量研究自20世纪70年代以来日益发展起来。以使用的方法划分,这些研究大体分为三类。


第一类是使用基本统计学方法,如相关性分析、逻辑回归、线性回归等,探索社会现象间相关性的研究。什么是相关性?即两个变量的共同变动趋势。比如,身高和体重存在正相关关系,量刑与犯罪严重程度存在正相关关系。法律领域的定量研究随着整个社会科学的定量化一起发展。


在20世纪80年代,研究者就将美国最高法院判决进行了数据化,发现法官决策与其政党背景有着很强的相关性——民主党法官在判决中更倾向于作出支持堕胎合法化、种族平权、限制持枪自由、加强经济管制的判决;共和党法官则恰好相反。再如,早期学者研究人们为什么守法,发现当事人对程序公正性的认同与对诉讼结果的认同,有着高度相关性;即认为程序公正的当事人,也更认同诉讼结果。近十几年来,波斯纳晚年的主要研究精力都放在了对法官和司法系统的这类定量实证研究上。


当然,再往前推三百年,伦敦的统计学家早在1665年就发现,伦敦各街区的黑死病发病数与猫的数量有强正相关关系。这一发现启发伦敦市政府下令扑杀了不少猫,却也使得瘟疫越发肆虐——到头来发现,黑死病却是由老鼠传播的。是的,相关性不等于因果关系。错误地推断因果关系,可能有着很严重的后果。这是几乎所有统计学第一课就强调的问题。


这也是为什么从20世纪90年代开始兴起的第二类定量社会科学,将关注点集中在发现因果性。这一轮定量社会科学的发展主要由经济学家主导,在经济学中,被称为实证研究的“可信度革命”。所谓可信度革命,即数据分析不仅仅满足于发现现象间的相关关系,更要能确定因果关系。革命的目的也很明确:“别杀害那些无辜的猫”——避免错误的法律和公共政策危害社会。


那么,什么样的统计学和数据分析方法,能够从相关性中推断因果性呢?答案出奇的简单:人类从实证(而非理论)角度确证事物的因果关系,有且只有一种思想方法,那就是实验。


今天,实验方法在自然科学中得到了广泛应用,但人类并不是天然就会做实验。科学史漫长,实验在近四五百年来才成为科学家自觉使用的方法。在培根和小密尔的时代,才有了对这种方法的系统性总结和反思。社会科学中的发展则更为晚近,实验方法首先应用在社会心理学研究中。这类实验大体是在实验室中进行,有着人为设定因而也较为明确的处理组和控制组。显然,社会生活的很多方面不可能在实验室中得到重现,因而也难以在实验室中进行研究,比如,如何在实验室中研究人口增长、犯罪率控制、法律的实施效果呢?不能在现实场景中开展实验研究因而成为实证社会科学的一大发展障碍。


就此,经济学在20世纪90年代开创了一系列新的思路,将类似实验方法的算法应用到对真实世界数据的分析中,进而实现了对真实社会的准实验研究。这些方法包括匹配、双重差分、工具变量、断点回归等。今天,这些方法成了定量社会科学研究的标配,经济学、政治学、社会学等领域的研究者都对他们耳熟能详。开发这些方法的经济学家有不少获得了诺贝尔经济学奖,2021年的诺奖得主约书亚·安格里斯特(Joshua D. Angrist)和吉多·因本斯(Guido W. Imbens)就是典型代表。


从20世纪90年代起,准实验方法在法律研究中也得到了广泛应用。《魔鬼经济学》的读者常常惊异于史蒂芬·列维特(Steven D. Levitt)的发现:美国20世纪70年代堕胎合法化导致了90年代(青少年)犯罪率的下降。这一研究的核心思路就是准实验,具体的数据分析方式是一种非标准的双重差分法。另一些研究中,他利用工具变量方法,测算警察数量对犯罪率的弹性系数(多雇一名警察,减少几个点犯罪率?);利用监狱拥挤诉讼引发的在押囚犯释放,测算在押率与犯罪率的关系(随机释放一名在押犯,导致犯罪率怎样的变化?)。


不仅仅是犯罪学和刑法,实际上,经过近三十年的发展,这些准实验方法已经逐渐应用至包括宪法、合同法、财产法、公司法、诉讼法、国际法等的几乎所有法律领域。


21世纪以来,定量社会科学又有了新的发展。


一方面,由于互联网的发展,以及数据抓取、自然语言处理等方法的普及,用于研究的数据规模、数据多样性、数据颗粒度都得到了很大提升,为大规模数据分析提供了原料——比如,文本数据、社交网络数据、图像音频视频数据、动态实时高频的金融经济数据,都得到了大规模采集和应用;另一方面,计算机存储能力和计算能力在十几年间呈指数增长(“摩尔定律”),为较为复杂算法(“人工智能”)的落地应用提供了基础——各种各样的非线性算法,特别是神经网络等深度学习方法得到广泛使用。由于以上两点,数据科学特别是人工智能学科取得重大进展。与此同时,应用这些数据和智能方法的第三类定量社会研究,即近年来所说的计算社会科学,开始逐步兴起。


就本质而言,第三类定量社会科学的研究目标与前两类定量社会科学非常接近。比如,它与第一类定量社会科学一样,注重发现事物间的相关关系;与第二类定量社会科学一样,在能够发现因果关系时,它也力图回答“为什么”的问题,尽可能可信地推断因果关系。与前两者不同的是,第三类定量社会科学更重视“做预测”——它将预测的准确度作为核心的目标。而这一目标是以往定量社会科学并不偏重的。


随着整个定量社会科学的发展,在法律研究中利用大规模数据做出预测的研究也日益发展起来;机器学习的方法被探索性地应用在了很多部门法的领域。在这一背景下,我们有了文章第一部分开头介绍的《人类决策和机器预测》这一重要成果。


总结来看,三类法律定量实证研究,大体分别偏重相关性、因果性以及预测能力。我们可以给最后一类研究起不同的名字,如计算法学、法律数据科学、法律人工智能,但其背后的研究脉络是清晰的、是逐步发展起来的;这一研究领域并不崭新,不是“天上掉下来的”。


以上三类研究的研究者也有着很大的重合。最早利用相关性做研究的学者,后来也多开始采用准实验的方法;随着机器学习等算法的发展,他们也开始尝试使用更大规模的数据和较新的算法。这种重合很好理解——一个自20世纪90年代以来就擅长数据分析的研究者,很自然会与时俱进,采用最新研究方法。


这些方法间也有明显的亲族关系:相关性分析是因果推断和准实验方法的基础;统计学家很早就发明的回归分析,到现在也是机器学习(“人工智能”)的重要方法之一。对于学习者而言,前两类研究也是第三类研究的基础,需要循序加以掌握。这也意味着,在这一领域,我们还需要补齐许多知识:不仅要学习热门时尚的“人工智能”,更要熟悉以往所有定量实证研究的主要方法和成果。


还需要澄清的是,尽管有了诸多方法上的新发展,不论如何,因果关系仍然是定量社会科学皇冠上的明珠,是所有定量研究都希望获取的知识。这也很好理解——科学研究的最终目的,本来就是要理解事物间的因果关系,要回答“为什么”的问题,以增进人类知识——而并不仅仅是探索相关性,或是做出准确预测。说到底,人类的好奇心才是科学发展的原动力。


同时,在这一问题上,使用复杂算法的计算社会科学,有其较为致命的弱点:复杂算法的应用,特别是神经网络等深度学习方法的应用,在提升预测能力的同时,降低了算法的可解释性,即降低了我们对自变量与结果变量之间关系的把握和理解;很多时候,我们只知道预测准确性提升了,却不知道是什么因素导致了准确的预测,变得更加一头雾水。这显然偏离了科学探索的本质。


机器可能替代法官吗?


除了容易过高估计数据和计算法学的“新颖性”,我们还容易过高估计人工智能对法律的可能影响,甚至是对法律人工智能有着幻想化、科幻化的期待。这大体还是因为不肯下苦功夫去了解人工智能的基本知识和原理,太容易被新词汇、新概念而非新思想、新方法所引诱。


用机器作法律决策,是很多伟大思想家的梦想。比如,莱布尼茨(Leibniz)便试图将法律简化为一组可以在机器上自动执行的算法,在告知案情后,便可给出法律结论。在不少人看来,机器更为公正无私,由机器而非法官来进行判决,将彻底消除人类在执法过程中的自由裁量以及由此引发的滥权,从根本上去除司法中的法外因素,保障裁判公正,实现社会正义。在今天,由于人工智能技术的飞速发展,这一梦想的实现似乎并不遥远。


使用基于数据科学和人工智能的技术,机器确实可以学习并模拟法官的法律判断。比如,通过学习以往的判决书数据,算法可能会发现,盗窃金额为10万元的犯罪嫌疑人,一般会被判处三年有期徒刑;金额为15万元的,一般会被判处四年。通过找到这些规律,算法便能够模拟法官进行量刑。这便是机器学习的思路——通过总结经验,归纳规律,再将规律应用到相似的场景上。另一种思路是专家系统:我们将刑法的规定直接告知机器,盗窃金额为10万元的,判处三年有期徒刑;金额为15万元的,判处四年。通过将复杂的规则体系编入机器,机器便可以用逻辑推理(演绎)的方式来进行量刑。


同理,在民事案件和行政案件中,机器学习和专家系统也能够帮助机器做出类似法官的法律判断。比如,在买卖合同案件中,通过学习以往的判决书数据,算法发现,法官一般判决违约方返还合同价款,并全额赔偿因违约而给对方造成的损失。在类似的案件中,算法便可以应用相同的逻辑对案件进行判决。同样地,我们也可以将合同法的条款编辑成计算机指令,并命令机器直接应用逻辑推理来进行判断。


理论上,只要数据量足够大(能够被机器学习的案件足够多),或是只要输入的规则体系足够全面,机器便能够进行类似法官的法律判断,完成法律适用工作。只不过,这两个条件在现有的科技水平下都很难完全实现。


现实世界极其丰富,法律的细微之处千差万别,我们很难穷尽其中的逻辑命题,并通过专家系统的方式去复刻和自动化法律中的所有逻辑体系。机器学习的方法似乎更可行一些,但是也面临着数据和成本的问题——现实的法律问题繁多、变化细微,这对机器理解法律的能力提出了极高的要求;同时,不少法律问题仅出现在少数的案件中,特质化较强,因而难以提供足够大的训练样本。


训练样本不足,机器便难以从中找到规律。更何况,往往一个案件会涉及多个法律问题,不同法律问题的组合,使机器面临的任务更为复杂。质言之,机器面临着繁多的法律问题类型及近乎无穷无尽的排列组合,但用于训练的数据量(判决)却总是有限的。这给机器学习带来了根本性的局限。以上这些问题在刑事法律中较容易克服,因为刑法规定的罪与罚种类本身较为有限,机器较容易学习到其中的规则和规律;而民商事交易类型繁复,案件中涉及的法律问题繁多,便更难被机器所处理。


以上问题还只是法律适用中的问题,即现实中已经有了明确的法律规定,机器只需要找到这些法律并加以适用,便能作出判断、得出结论。法律实践中,还有两个比法律适用更难被机器处理的问题:一是疑难案件中的判决,二是对案件事实的判断。


在没有明确的法律规定,也没有明确的先例时,机器是无能为力的。这意味着机器难以解决真正的疑难案件(这就是德沃金定义的疑难案件——没有法条和先例可以给出明确结论的案件)。在疑难案件中,法官一般使用自己的裁量权来作出判断,很大程度上,法官在做着创造法律即立法的工作。立法的依据是法官的社会经验,以及对法律背后价值判断的认识(德沃金称为“原则”,以掩饰司法中无可避免的反民主因素)。


这些工作,坦率地说,机器根本无力完成——试想,如何让机器积累大量的社会经验,并用以填补法律空白、创造新的法律呢?这完全超出了机器学习对象的范围。很遗憾,大语言模型也难以解决这一问题。语言模型的学习对象是人类既有的知识(语言),这意味着其学习的结果也并不能超出既有的规范。


机器也难以对案件事实问题进行有效判断。疑难案件毕竟是少数(虽然很可能是法学研究关注的“关键少数”),但事实问题却存在于每个个案。回到前面的例子,机器有能力判断什么是“盗窃”、什么是“违约”吗?判断一个行为是否是盗窃,需要对行为的具体手法、行为时的环境、犯罪嫌疑人的意图等要素进行综合考虑,在司法过程中,这些要素又是通过证人证言、录像、口供等材料所支撑而确立的。


面对这一过程,机器很难在这些模态众多的基础材料(文本、录音、视频、图像)中摘录出关键信息,很难理解每一个基础材料对于判断行为性质的意义,很难辨识真伪(特别是证言和口供),更难将这些材料综合,形成对事实的整体性理解。


“盗窃”恐怕只是一个最简单的例子,法律中的很多判断还需要人们对事实有更为复杂的理解。比如,如何判断侵权人是否存在“过错”——判断过错,需要知道社会一般人的注意义务,即需要感知一般人在类似情形下会如何行为;如何判断犯罪嫌疑人是否存在“故意”——判断故意,需要推断其行为时的主观心理状态;如何判断合同违约时对方损失的“可预见性”——判断可预见性,要了解违约方究竟掌握了多少信息,以及应当掌握多少信息;如何判断出售的货品是否有“瑕疵”,以及卖方是否履行了告知义务——判断瑕疵,需要知道同类商品一般的品相和状况。此类问题,不胜枚举。


可以看出,对事实进行判断,需要大量的社会生活经验和朴素的实践理性。对人类来说,获取社会经验和实践理性都并不困难——我们大体知道什么是过错、什么是故意、什么可以预见、什么是过得去的商品品质。但对于机器,这意味着算法没有明确的学习任务(没有确定的结果变量)以及需要学习的训练集(训练数据)。或者说,训练集是整个社会生活,无边无际。


比起普通的单一事实,还有更难的问题:如何让机器像人一样理解复杂的“故事”。讲故事——叙事、理解叙事——是人类的核心能力,也是法律工作的核心任务。说到底,法律程序就是在重新构建一个过去发生的事件,也就是“故事”。故事的基础是事实,事实的基础是证据。然而,所有的一切——证据的真实性、事实的可靠性,都需要人们根据自身的社会经验进行判断,形成“心证”。很大程度上,判断一个故事的真假,是法律决策中最难的点。


试想,当吴谢宇诉说犯罪动机,讲述他的母亲性格如何完美时,机器是否有能力判断这一陈述的真伪?(人类呢?)当劳荣枝强调,她在所有案件中都是被胁迫的帮助犯,机器有没有能力根据证据链上的所有证据,判断她在犯罪中的作用?甚至,不需要复杂案件,难题在日常纠纷中同样存在。借贷纠纷中,如果双方只有口头协议,机器如何判断借贷是否真实存在?离婚案件中,机器如何判断双方感情确已破裂?


亚里士多德说,文学比历史更严肃。对文学美感的体悟,涉及对故事真伪的判断和理解;洞悉人性,穿越话语和矫饰,明辨发生于过往的事实,恰恰也是法律的难点,更是人工智能的难点。在这个意义上,法律与文学一道,构成了人工智能难以突破的人类智慧。


数据科学和人工智能对法学的可能贡献


至此,我们探讨了机器要替代法官所要面对的难题。实际上,要让机器替代法官,基本上等价于要创造一个强人工智能(这在数十年内几乎没有实现的可能)。这也很好理解——法律决策涉及复杂的事实判断、规则判断和价值判断,还需要不时根据社会经验和实践理性来创造规则、填补漏洞,这几乎要调用到所有最高级别的人类智能,因而,只有具有类似人类智能的机器才可能综合处理。


回过头来,似乎得询问自己:我们真的需要机器大包大揽,完成所有法官的任务吗?实际上,当前智能技术发展的主流也并不是通用人工智能,而是用以解决一个个具体而细小问题的领域型人工智能。这在法律领域同样适用——在破除了对人工智能的幻想后,我们可以更为脚踏实地、更为切实地考虑:机器到底能为法律人做些什么。


第一,与大部分法律人工智能的从业者不同,我认为,数据科学和人工智能对法律的最大作用是在立法上。对数据的分析和研究,能够帮助我们更好地测量和理解法律的运行效果,进而使我们进行更为科学的立法。


在我国,很多法学中的重要讨论都缺乏对基本事实问题的调研,特别是缺乏严格的科学证据的支撑。举例而言,法学界一再探讨是否应该废除死刑,但是,我们对于老百姓对死刑的态度(是否支持废除死刑),对于废除死刑将在多大程度上削弱刑罚的威慑作用、影响社会治理,几乎没有任何朴素观感以外的证据。同样的,刑法学界探讨是否应该提高收买被拐卖妇女、儿童罪的刑罚,通过打击买方市场来遏制收买行为,但是,我们对拐卖市场的体量、结构,对于卖方的通常身份(是否为亲属、熟人),对购买妇女结婚生子是否是刚需,对农村基层执法中的问题,都缺乏系统的认识,这导致我们并不能确定加重刑罚是否真的对保护妇女儿童有利。


在设置民事行为能力年龄的下限时,我们也拿不出证据说明十岁和六岁的下限哪个对保护少年儿童更为有利——因而采取了“折中说”,定为八岁,让人啼笑皆非。类似的例子不胜枚举,甚至可以说,缺乏科学证据这一问题,几乎贯穿于法律研究和讨论的每一个环节上。缺乏科学证据也就意味着缺乏最直观、最有力的论证工具,这使得法学研究在立法问题上乏善可陈,法学家在重要问题的公共讨论中显得脚下虚浮、根基不稳。实际上,大部分立法问题的实质,都是公共政策问题,而公共政策早就已经发展成了一个用数据分析说话的学科。


数据分析和数据科学当然不可能解决立法中遇到的所有问题,但是它们却能为很多问题提供科学证据,帮助我们加深对立法领域大量问题的理解。比如,通过对三万多人的调查数据的分析,研究者曾发现,大约仅有68%的中国人支持死刑——这远比不少法学家以往想象得要低,甚至也比日本、我国台湾地区的支持率要低——我国老百姓普遍支持死刑的说法,并不特别可靠。同时数据还显示,受过大学以上教育的民众对死刑支持率比一般民众要高出约10%,这说明对死刑的支持更多地来自社会精英,废除死刑的民意阻力,恐怕也主要来自受过一些教育又担忧社会公共问题的民众。


此外,即便控制了受教育的因素,经常在网上发表意见的民众较一般民众而言,也更加支持死刑(高出8%)。这说明,网上的民意并不一定代表真实的民意。网络上喊打喊杀的,并不一定是典型的中国民众。


又如,不少中外学者都对庭审直播是否会影响审判公正有着担忧。美国前最高法院法官戴维·苏特尔(David Souter)态度激烈:“摄庭审,毋宁死”(The day you see a camera coming into our courtroom , it’s going to roll over my dead body)。针对这一问题,研究者在我国开展了对庭审直播的实验研究,使用自然语言处理的方法分析了大量的庭审语音数据。研究者发现,在庭审直播时,只有当事人的语速显著放慢,法官和诉讼代理人语速则没有显著变化,而所有主体的基频(反映说话人音调高低)范围显著缩小。同时,法官的法言法语使用量明显增多,显得更为庄重肃穆。


这些发现表明,庭审直播促使当事人在庭审中更加谨慎、减少所有主体在庭审中的极端情绪和行为;具有较多直播经验的法官和诉讼代理人则不会受到直播的过多影响。这都说明庭审直播没有对审判公正性造成干扰。


可以看出,对于几乎每一个立法和法律政策的问题,我们都需要提供,也可以提供很多使用数据科学方法的科学证据。这些研究具体而微,研究设计和分析方法也各不相同。在这一方向上,有无数新的、有趣的问题值得我们深入探索,天地十分广阔。


第二,法律数据科学和人工智能的另一个应用领域是法律决策辅助。算法和机器很难替代法官完成全部工作,但却足以在一些特定领域帮助或辅助法律人和当事人作出更好的决策。


在2000年年初,已有研究显示,决策树模型可以使用数据预测美国最高法院的判决,其预测准确率超出律师和法学教授等专业人士。从当事人的角度出发,这一算法可以成为很好的决策辅助工具——当算法能够精准预测判决结果时,当事人可以依据算法的预测,更理性地作出诉讼中的各种决定(如是否起诉、是否和解等)。


实际上,当数据足够精细时,算法还能为当事人提供更多的指导,比如,在类似案件中,哪些律师的胜诉概率更高,哪些法院更愿意支持当事人的诉请、处理速度更快,哪些法院执行效率更高,等等。在一项研究中,研究者使用我国公开的裁判文书数据,从中获取了全国律师在诉讼中的信息,这使得我们可以计算每个律师、每家律师事务在每一家法院、每一类案件中的胜诉概率。研究者也分析了全国所有法院的判决时长和效率。根据这些分析,当事人可以更好地选择律师、选择起诉事由,甚至是选择法院。


不只是对当事人,各种各样的决策辅助工具也能够为法院和其他执法机构提供帮助。比如,美国不少州长期使用再犯风险预测系统(COMPAS)。通过数据分析,系统可以预测每个罪犯的再犯风险(概率),法官可以根据这些风险预测来调整量刑,以达到震慑和遏制犯罪的社会效果。再如,我国学者通过分析裁判文书大数据,研究不同法官的量刑差异,进而识别法官量刑中的异常行为,这种方法能够帮助法院更好地进行审判管理,推动同案同判,减少审判中自由裁量权滥用的情况。


这些年来,国内外不少法律科技企业投入大量资源研发类案检索和类案推送工具。不论中外,类案都是法官判决的重要参考,也是律师和当事人决策的重要依据。类案检索和分析是每一个法律从业者的基本工作。如果算法能够通过挖掘文本数据,自动进行类案检索和类案推送,将为各个领域的法律工作者提供巨大便利。当然,从现有的发展情况看,国内外的类案识别技术仍然并不成熟,类案的推送也并不准确。不过,随着智能技术的发展,类案识别的部分技术“瓶颈”肯定会被突破,类案推送至少将在部分法律领域得到深入应用。


以上都是数据科学和人工智能为法律人提供决策辅助工具的例子。我们可以预见,在未来,各种各样的智能工具将更为盛行。这无疑将降低法律工作的成本,大幅提高法律决策的准确性和科学性。


第三,法律人工智能也能够提供众多自动化工具,用以提升法律工作效率。比如,我们可以使用统计分析和图像识别工具,对行政执法或者是庭审直播中的异常行为进行自动识别和检测。我们也可以使用翻译工具,对不同语言的法律文本进行翻译。我们还可以使用大语言模型,对案件、合同、法律意见等文书进行摘要,提升法律阅读的速度。甚至,大语言模型也可以帮助我们自动生成各种法律文本——当然,在现有的技术条件下,生成文本还并不准确、完善。


在各种各样的智能技术中,大语言模型给人最多的遐想空间。文本是法律的表达方式,生成文本(“写文件”)是法律领域的核心工作。无论是法官、检察官、律师、企业法务等法律工作者,还是签订合同、参与诉讼的普通人,都是以文本为媒介处理法律问题。所以,不少人很早就感到,ChatGPT等大语言模型在法律领域将会有广阔的应用前景。例如,大语言模型可以回答法律问题、帮助起草合同和文书、辅助撰写判决,等等。截至本文写作之时,已有不少法律领域的生成式人工智能产品发布,大语言模型对法律工作的改变正在发生。


不过,ChatGPT等通用型大语言模型没有针对法律领域进行优化,因此很难胜任专业性较强的法律任务。一般而言,如果向ChatGPT咨询法律问题,它只会给出逻辑基本正确但十分笼统的回答,并在最后建议“应当咨询专业律师的意见并了解相关法律规定”。要让大语言模型具备解决法律专业问题的能力,就需要向模型注入法律知识。要让模型学会法律知识有两种办法:预训练和微调。


目前,无论是怎样训练出来的法律大语言模型,都较难解决模型的“幻觉”(hallucination)问题,即模型生成的内容在表面上显得严肃专业、头头是道,但其实质内容却是胡编乱造——通俗地说,就是“一本正经地胡说八道”。比如,模型会自己“编造”并不存在的法条和案例。美国一位律师使用ChatGPT编写的法律文件,引用了四个并不存在的虚假案例,导致律师受到法庭的严肃处罚。


在现有的技术条件下,“幻觉”错误很难被彻底消除,因为它根源于大语言模型的训练原理。大语言模型是基于统计学习的生成模型,通过对大量文本数据的学习,预测下一个可能出现的单词或句子,从而完成对话和文本的生成。在这个过程中,模型会根据预先训练好的统计模型和概率分布,从训练集中选择下一个最适合的词汇,不断生成新的对话内容。如此训练的模型在形式上会显得通顺,但是在内容上却可能出现事实错误。


当然,假以时日,我们相信这里的部分问题会得到有效解决,比如,业界已经提出结合大语言模型和知识库(知识图谱)、结合大语言模型和检索算法等思路,这些技术路线都有望减缓模型的“幻觉”问题,提供更准确的领域知识。同时,我们也完全可以首先使用大语言模型开展一些简单任务,比如,帮助政府部门特别是执法部门生成格式化的行政(执法)文书、帮助法院立案庭对起诉材料进行摘要,等等——在这些任务中,我们都可以有效限制语言模型的信息来源,避免“幻觉”错误的影响。


结语


计算法学、数据法学、法律人工智能在近年来有了较大的突破,但其应用场景仍然是特定的,因而也是局限的。比如,使用机器学习,我们可以预测保释决策、可以预测刑期、可以预测美国最高法院判决;使用大语言模型(如ChatGPT),可以自动生成法律文书、可以进行交互法律问答。


但是,这些已有的应用,大多建立在人类已经将大量非结构化数据(视频、语音、文本)结构化的基础上。同时,针对每一个应用场景,都需要研究者找准研究问题,收集大规模数据,反复调校模型——也就是说,都需要大量人工的介入;甚至“人工”的成分远远大于“智能”成分。而法律领域的通用人工智能,科学幻想的成分远高于科学成分。人工智能中凝结的更多是数据科学家辛勤的汗水;指望机器一劳永逸地解放法律人,还为时过早。


对于法律人工智能(法律数据科学、计算法学、数据法学……),我们能期待什么?本文的研究指出,我们首先不应该拘泥于法学的概念和定义,而应更为关注实际问题,用更开阔的心胸和视野去接纳不同思想和方法对法学知识的贡献。我们既不能闭目塞听,不了解这一领域令人兴奋的前沿进展;也不能过于乐观,盲目相信它的未来。我们需要从技术层面了解这个领域,使用这些方法,用以“抓住事物的根本”。





              

HKUCCL
香港大学法律学院黄乾亨中国法研究中心
 最新文章