新文速递|刘庄:从“世界模型”看人工智能在法律场景的实际应用

学术   2024-05-23 10:33   中国香港  


✪ 刘  庄

香港大学法律学院副教授

【《中国应用法学》编者按】2月15日,Open AI发布了文生视频大模型Sora。Sora能够根据用户提供的文本、图像或视频,生成长达60秒、多镜头、包含复杂场景与角色的视频,并在此过程中理解人类语言与物理世界逻辑。对法律和司法而言,文字生成视频大模型这一新技术机遇与风险并存。如何最大限度地运用人工智能促进诉源治理、辅助司法决策、智慧法院建设,同时尽可能避免其潜在风险,是当前法学研究的重要问题。基于此,《中国应用法学》2024年第2期,以“文生视频大模型(Sora)对法律和司法的挑战”为题组稿专题策划。据了解,本专题为国内法学期刊首先推出以Sora为题的一组法学论文。本期特此编发香港大学法律学院刘庄副教授撰写的《从“世界模型”看人工智能在法律场景的实际应用》,以飨读者。


*因篇幅限制,注释等有删减,如需引用请参见期刊原文。欢迎个人分享,媒体转载请联系本公众号。


从“世界模型”看人工智能在法律场景的实际应用


文|刘 庄

本文刊载于《中国应用法学》2024年第2期

内容提要:在当前和未来很长一段时间内,数据分析和传统机器学习方法的应用,能够较好解决法律研究和实践中面临的问题,应该受到更多关注和重视;而ChatGPT和Sora等生成式人工智能,存在技术和市场两方面的困境,较法律领域的实际应用尚存在不小距离。法律实践者要重视数字思维,推动利用大数据和机器学习方法辅助决策;也要审慎对待大模型和生成式智能技术,警惕盲目投入导致资源浪费。面对层出不穷的人工智能模型以及法律界的“人工智能热”,本文建议学界和实务界务必密切观察人工智能对法律实践的影响;也建议法律人仔细找准问题、瞄准成熟技术,谋定而后动。

关键词:世界模型  生成式人工智能  机器学习  数据分析  法律应用


文 章 目 录


引言

一、文生视频、世界模型与法律实践

二、法律大语言模型的研发难点和市场困境

三、法律人工智能的核心领域:辅助法律决策

四、法律大数据和人工智能的急迫任务:促进科学立法、提升社会治理水平

结语


▐  引  言


2024年2月15日,Open AI公布了Sora,在业界引起震动。近年来,以ChatGPT和Sora为代表的、以语言模型为基础的生成式人工智能一再带给人们震撼和惊异。语言是法律的表达媒介,生成文本(“写文件”)是法律的核心工作。人们很早就感到,ChatGPT等大语言模型将在法律领域有着广阔的应用前景,因此,法律行业内高涨着对大数据和人工智能的热情。目前,国内外已经有不少企业和机构开展了法律大模型的研发,生成式人工智能在法律领域的革命似乎很快就要降临。


本文分析几类法律大数据和人工智能的应用场景,讨论其实现难度。与通常的认识不同,文章认为,当前和未来很长一段时间内,各类生成式人工智能(包括Sora等文生视频模型及ChatGPT等大语言模型)在法律实践中的实际作用仍然有限。特别是ChatGPT等大语言模型在法律领域正遭遇技术和市场两方面的困境,应用前景仍然晦暗不明。


与此同时,法律大数据和人工智能也能在其他的一些场景中起到立竿见影的效果,集中表现在辅助法律决策和推动科学立法两个方面。当前,我们应当着重培养“数字思维”:着重发展利用大数据和机器学习算法,帮助当事人、律师和法官作出更好决策,降低法律行业成本、提升法律服务效率;同时,使用数据和人工智能模型,推进对真实世界法律运行效果的定量研究,提高科学立法水平,提升法律大数据和人工智能在社会治理中的作用。


本文使用最广义的“人工智能”概念,不仅包括时下热门的生成式人工智能(大语言模型、文生视频模型),也包括作为数据分析和预测方法的“传统”模型,如决策树、回归分析、深度学习,还包括自然语言处理等数据处理方法。面对层出不穷的人工智能模型,以及法律界的“人工智能热”,本文建议学界和实务界务必下苦功夫学习和了解统计学、数据科学、人工智能的基本知识和原理,密切观察人工智能对法律实践的影响;也建议法律人瞄准法律决策辅助、科学立法等更为务实的领域,掌握包括统计分析、机器学习等较为成熟的技术,将精力投入到实际问题中去。


▐  一、文生视频、世界模型与法律实践


OpenAI在2024年发布的Sora是一种根据文本指示生成视频的模型(“文生视频模型”),能够根据用户提示(用户输入的文本)快速而准确地生成长达一分钟的视频。视频不仅能够创造多个角色、模拟真实世界的复杂场景,更重要的是,它能够自发学习、模拟和体现真实世界的运行和运动规律。因而,OpenAI倾向于将Sora称为“世界模型”。凭借这一模型,人工智能可以通过学习以往视频数据,创造一个符合真实世界因果关系和物理规律的虚拟世界。当然,目前这一虚拟世界的长度还仅局限在一分钟。


Sora并不是唯一的文生视频模型,但它在多个方面超越了既往技术,让人们看到了“世界模型”的希望。当其他人工智能视频生成工具还只能实现几秒内的连贯性时,Sora已经可以快速制作长达一分钟、可一镜到底的视频。视频中,多个角色完成特定类型动作,主题和背景细节极其准确。OpenAI的网站上展示了Sora生成的东京和“淘金热”时代加利福尼亚州街景、2056年在尼日利亚生活的人们。这意味着Sora不仅理解用户在提示中所要求的内容,还知道这些事物在现实世界中的存在方式。


作为“文生视频”模型,与ChatGPT一样,Sora能够深入理解自然语言,生成的形象能够鲜明地表现用户提示中带有的情感色彩。例如,它可以生成这样的特写镜头:一位60多岁的男士,头发花白、留着胡须,坐在巴黎的咖啡馆里,沉思着宇宙的历史;他穿着羊毛大衣、西装外套,搭配纽扣衬衫,戴着棕色贝雷帽和眼镜,看着像一名教授;他坐着,一动不动,最后露出一个微妙的笑容,仿佛找到了生命奥秘的答案。  Sora还能在视频中创建不同视觉风格的镜头,例如,它生成展示不同风格的艺术作品的美术馆的游览视频。另外,Sora还具备根据静态图像生成视频的能力,能够让图像内容运动起来,并同时仔细刻画细节,使得视频较图像更为生动逼真。基于此,它能够对已有的视频进行扩展或填充,可以帮助用户快速完成视频内容的制作和完善。这些功能使得Sora在动画制作、广告设计、视频编辑、电影特效等领域具有广阔的应用前景。


当然,任何的世界模型都不完美,不可能完全模拟真实世界。在Sora官方网站上,OpenAI主动展示了一系列错误示例:有的时候,模型会错误理解场景中的物理原理和因果关系。例如,人逆着跑步机跑步,却一直不掉落下来;咬了一口饼干,饼干上却没有咬痕。Sora还可能混淆空间细节,错误描述时间与运动的关系,错误生成物体,凡此种种,不一而足。


Sora的突破离不开其在技术上的创新,跟所有人工智能产品一样,创新的核心,一在于算法,二在于数据。Sora采用了与GPT模型相似的Transformer架构,而非过往视频处理中的模型结构。Transformer架构能够处理长序列数据,并通过自注意力机制捕捉数据中的依赖关系,这对于模型能够学习和生成长时间的视频至关重要。同时,Sora是一种扩散模型,具备从噪声中生成完整视频的能力,它生成的视频一开始看起来像静态噪音,通过多个步骤逐渐去除噪声后,视频也从最初的随机像素转化为清晰的图像场景,能够一次生成多帧预测,确保画面主体在暂时离开视野时仍保持一致。在数据处理上,OpenAI将视频和图像表示为Patch,类似于GPT中的token,这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比,有助于模型学习到更丰富的视觉特征,提高生成视频的质量和多样性。


在国内外,已经有一些关于Sora等文生视频模型(以及未来的世界模型)将如何影响法律实践的讨论。我们可以想见,在司法领域中,文生视频模型具有很多应用场景。例如,模型可以将文本材料(如证人证言、口供、判决书等)快速转换为视频形式,方便法官、律师和当事人理解和分析,提高案件信息的获取效率和呈现效率;  可以根据目击者描述,模拟犯罪或事故过程,使庭审参与者沉浸式体验案件现场,帮助法官和陪审人员理解案件细节;可以制作虚拟形象帮助受害人出庭,减轻受害者出庭的心理压力;可以自动生成庭审过程的视频摘要,减少对人工视频编辑,节省时间和人力成本。总之,视频模型有潜力改变现有的庭审模式,使得庭审中的信息传递更直观、更有效率。在法庭之外,文生视频模型也有着不少应用潜力。例如,模型可以将法律条文、司法解释,特别是相关案例,转换成视频形式,普及法律知识,提高公众法律意识,降低法律服务门槛;可以将复杂合同条款通过视频形式展现,帮助非专业人士理解合同内容。实际上,以上这些也都可以用在法律教学上——模型可以将法律、案例和其他文本转换为视频教材,为教学提供直观材料,提高教学效果。


▐  二、法律大语言模型的研发难点和市场困境


从上述的讨论看,Sora等文生视频模型可以改变庭审模式、提高庭审效率,也可以帮助普法和提升法律教学质量。只不过,这些似乎都不是法律实践的核心领域。它们对立法、司法和执法的帮助,既不显著、也不深入。那么,人工智能是否能够介入法律实践的核心,解决一些重大问题呢?


很多人寄希望于ChatGPT等大语言模型。语言是法律的表达媒介,生成文本(“写文件”)是法律领域的核心工作。无论是法官、检察官、律师、企业法务等法律工作者,还是签订合同、参与诉讼的普通人,都是以文本为媒介处理法律问题。所以,人们很早就感到,ChatGPT等大语言模型将在法律领域有着广阔的应用前景。例如,可以使用大语言模型完成法律检索、回答法律问题、起草合同和文书、撰写判决等。截至本文写作之时,已有不少法律领域的生成式人工智能产品发布,大语言模型对法律实践的改变似乎正在发生。


但是,本文认为,在法律实践中,各类生成式人工智能将不可避免地遇到技术和市场两方面的难题。这使大语言模型在法律实践中的应用前景显得晦暗不明。


第一,大语言模型的技术逻辑与法律实践的需求并不完全匹配。不论是法律检索还是类案推送、判决撰写,业界对法律大语言模型的核心期待是,模型可以回答法律问题。例如,法律检索要求模型理解提问中的法律问题,并给出答案(法条和案例);类案推送(或检索)要求模型理解手头案件和以往案件中的法律问题,并识别出法律问题相似的案件;判决撰写要求模型理解案件材料中的法律问题,并依据以往的法条或案例写出说理。无论是哪种应用,都要求模型学习和理解以往的法律材料(包括制定法、案例、合同等),并能给出切中要害的答案。


然而,大语言模型是一种语言预测模型,而非搜索模型(如谷歌或百度搜索,或者是论文或法律数据库的检索)。语言预测模型的优点和缺点,都来源于技术的基本逻辑——对语言进行预测,要基于统计来学习,即通过对大量文本数据的学习,预测下一个可能出现的单词或句子,从而完成对话和文本的生成。在这个过程中,模型会根据预先训练好的统计模型和概率分布,从训练集中选择下一个最适合的词汇,不断生成新的对话内容。如此训练的模型在形式上会显得通顺,但是在内容上却可能出现错误。这也就是所谓的大语言模型的“幻觉问题”,即模型生成的内容在表面上显得严肃专业、头头是道,但其实质内容却是胡编乱造,通俗地说就是“一本正经地胡说八道”。例如,模型会自己“编造”并不存在的法条和案例。美国一位律师使用ChatGPT编写的法律文件,引用了四个并不存在的虚假案例,导致律师受到法庭的严肃处罚。 


目前,业界已经提出结合大语言模型和知识库(知识图谱)、结合大语言模型和检索算法等思路,这些技术路线都有望减缓模型的“幻觉”问题,提供更准确的领域知识。然而,知识图谱和检索算法,实际上是上一代法律问答产品的思路,并没有用到大语言模型的核心算法。或者说,结合知识图谱和检索算法的大语言模型,只是将上一代法律问答产品换了个新包装,性能中缺乏大语言模型的特点。这避免了大语言模型的缺点,却也失去了大语言模型那看似神奇的力量。  实际上,上一代的法律检索和法律问答,已经被证明很难智能地解答法律问题。所有使用过任何“类案推送”系统的用户都很容易理解这些产品的缺陷。


此外,法律问答的主要付费用户是法官、律师等法律专业人士,而这些用户对问答准确率的要求很高。试想,一名律师问一百次法律问题,最多能够容忍多少次“胡编乱造”的答案?恐怕容忍的限度很低。而高准确度又与大语言模型的特点相悖——语言模型并非检索模型,并不擅长给出唯一的正确答案。这也意味着,要构建符合市场需求的法律模型,难度非常高。这不同于语言模型一般的任务——写作。我们可以评价写作的优劣、好坏,但很难评价写作的对错,这使得人们对一般语言模型的容忍度和接受度较高。


第二,法律市场体量狭小,法律领域的人才储备和数据基础薄弱,难以支撑行业大语言模型的研发。首先,法律市场的规模很难提供足够大的需求来支撑法律大语言模型的研发。或者说,法律市场提供的价值或利润,不足以支撑一流的人工智能企业对其进行大幅投入。相比之下,金融、医疗、互联网,甚至娱乐产业,规模更大,更容易形成巨大市场需求,都更能引发技术和产品创新。法律产业规模狭小的问题,在我国尤其突出,这使得我国发展法律大模型面临很强的客观限制。


即便抛开市场体量和市场需求这一根本性因素,从供给端看,法律领域针对大数据和人工智能产业的基础设施也严重不足。基础设施的不足体现在人才和数据两个方面。


在人才方面,法学教育往往导致法律从业者对自然科学和技术所知甚少,特别是对统计学、数据科学等人工智能的基础学科所知甚少。这一方面致使法律从业者难以理解人工智能的内在技术逻辑,有时又会发展成为另一个极端,使法律人对技术有着过于理想化的期待。这都使得法律从业者很难真正与技术专家合作,创造适应实践需求的产品。另一方面,法律实践的门槛较高,技术背景的研发人员对法律问题的了解也相对不足。特别是,人工智能行业发展迅猛,有众多更为值得关注、更能创造利润的领域,研发人员往往没有足够的耐心和时间去深入了解法律领域对人工智能的具体需求。这又回归到了法律市场规模较小、难以创造有效需求这一问题上了。


在数据方面,要训练出实用性强、能解决法律问题的大语言模型,需要大量数据作为基础。我国一度公开了较多的裁判文书,这为语言模型的训练提供了便利。不过,各级法院的大部分裁判文书往往说理长度不够长、深度不够深,这客观上降低了裁判文书数据的信息量和质量。同时,能够更为全面、深入反映法官决策过程和判决理由的案件案卷资料并不对外公开,因此,在训练语言模型时难以使用这些资料作为训练数据。这些因素都使得法律大语言模型,至少是司法领域的大语言模型难以得到规模较大、质量较佳的训练数据。此外,要训练大语言模型,仅使用法院自身数据往往并不理想。司法机关的数据需要不断与其他政府部门及市场主体数据进行碰撞,才能产生更有价值的信息。显然,政府部门间的数据壁垒问题也将阻碍法律人工智能的整体发展。 


总结而言,我国发展法律大语言模型等法律领域生成式人工智能,面临人才、数据和市场等多重困境。要克服这些难题,需要加强法学和技术的交叉学科训练,需要推动法律数据的积累,提升数据质量,更需要开发更大的法律市场。这些都不是中短期内能够实现的任务。


▐  三、法律人工智能的核心领域:辅助法律决策


从上述的讨论看,Sora等文生视频模型并不能有效介入法律实践的核心领域,而似乎能够解决核心问题的大语言模型,又存在着技术上的“货不对板”、研发难度大,商业上的市场规模小、有效需求不足等问题。那么,法律人工智能是否举步维艰、毫无作为呢?也并非如此。


实际上,一直以来,不论是国内还是国外,法律人工智能的核心应用领域都是法律决策辅助,或者说,是以数据和算法来帮助降低法律决策成本、提高决策质量和效率。数据和算法很难替代法官或者律师完成全部工作,但却足以在一些特定领域帮助或辅助人们作出更好的决策。


第一,算法能够为一般当事人和律师提供决策辅助。在2000年年初,已有研究显示,使用简单的单一决策树模型可以预测美国联邦最高法院的判决,准确率超出律师和法学教授等专业人士。  从当事人的角度出发,这一算法可以成为很好的决策辅助工具。当算法能够精准预测判决结果时,当事人可以依据算法的预测,更理性地作出诉讼中的各种决定,例如是否起诉、是否和解等。实际上,当数据足够精细时,算法还能为当事人提供更多的指导,如在类似案件中,哪些律师的胜诉概率更高,哪些法院更愿意支持当事人的诉请、处理速度更快,哪些法院执行效率更高,等等。这是国外很多法律科技公司,如Lexis Nexis及其关联企业Lex Machina主攻的业务方向之一。再如,美国每年有数百万起人身伤害侵权案件,但很大一部分都未被起诉进入法院,而是达成了私下和解。在和解中,案件的受害者由于不了解过往案件的赔偿金额,往往得不到合理的补偿。同时,在代理案件中,律师收费较高,有时甚至能够到达赔偿总额的三成以上。不少法律大数据和人工智能企业瞄准了这一领域,希望以算法替代(或者辅助)律师评估个人伤害案件,并提出赔偿建议。由于人身伤害案件赔偿公式计算较为明确,类案较多,数据结构化程度好、质量较高,因此,算法能够较好地实现对判决的预测(对赔偿金额的计算)。结合对医疗记录、账单和警方报告等原始案件文件的自动识别,则更能便利当事人或律师准备索赔材料甚至起诉书。


在我国,包括本文作者在内的研究者们也使用我国公开的裁判文书数据,从中获取了全国律师在诉讼中的信息,这使得我们可以计算每个律师、每家律师事务所在每一家法院、每一类案件中的胜诉概率。  研究者也分析了全国所有法院的判决时长和效率。根据这些分析,当事人可以更好地选择律师、选择起诉事由,甚至是选择法院。


第二,不仅是对当事人和律师,各种各样的决策辅助工具也能够为法院和其他执法机关提供帮助。在这一领域,已经有不少先进的国际和国内经验。例如,美国不少州使用再犯风险预测系统(COMPAS)。通过数据分析,系统可以预测每个罪犯的再犯风险(概率),法官可以根据这些风险预测来调整量刑,以达到震慑和遏制犯罪的社会效果。又如,在美国,研究已经证明,在保释问题上机器能够作出比法官更好的判决——在保持监狱在押人员规模不变的情况下,(以机器替代法官进行决策)将减少20%的犯罪率。  再如,我国学者通过分析裁判文书大数据,研究不同法官的量刑差异,进而识别法官量刑中的异常行为,这种方法能够帮助法院更好地进行审判管理,推动同案同判,减少审判中自由裁量权滥用的情况。 


在我国的司法实践中,数据分析和机器学习有着广泛的应用场景和巨大的应用价值。例如,国内一些法院已经将法律适用规则、裁量尺度标准、关联案件信息、文书写作规范等嵌入办案系统,实现自动分析、自动推送、自动预警。这样,案件办理不再单纯是法官个体的智慧和思考,而是一整套大数据智能分析系统的支持。如有学者指出,“工业时代的法院始终没有解决法官个体知识向法院群体知识传递、法院群体知识代际传承的两大难题,但是在数字共同体之中,每位法官的办案不再是单纯积累自己的办案经验与专业知识,而是通过梳理裁判规则来为整个共同体知识图谱的丰富和完善贡献个体智慧”。  又如,通过共享大数据中心的数据,可以及时发现案件中法人等组织注销或者自然人死亡的情况,发现被执行人公积金、大额养老金等财产执行的线索。


如果对数据进行深入分析,并结合人工智能,算法完全可以实现更为高级的功能。例如,上海法院系统就通过数据分析和建模,实现了用算法发现“涉车牌买卖虚假诉讼纠错”“民间借贷虚假诉讼”“假离婚、实逃债诉讼”,为发现和打击虚假诉讼行为提供了有效的途径。又如,对常见的适法不统一、自由裁量权行使不规范的案件类型,研发出了“销售假货刑事案件适法统一”“职务发明奖酬案件适法统一”“危险驾驶案件适法统一”等类案的应用场景,在办理相关案件的时候能够即时提示权威、典型案例处理规则,为统一法律适用标准提供切实帮助。  另外,司法案件中常见的二手房交易双方“做低”房价、股权转让签订“阴阳合同”等情况,往往蕴含着偷逃税的可能,可以通过建立数字模型进行筛查,生成涉嫌逃漏税款的具体案件清单,推送给税务部门进行核查。


以上都是法律人工智能提供决策辅助的例子。可以预见,在未来,各种各样的智能工具将更为盛行。这无疑将降低法律工作的成本,提高法律工作效率,并提高法律决策的准确性和科学性。


▐  四、法律大数据和人工智能的急迫任务:促进科学立法、提升社会治理水平


如果将视野从执法和司法扩展到立法以及广义的社会治理,我们将发现大数据和人工智能有着更重要的应用和更急迫的任务。从现有的技术来看,大数据和人工智能对法律实践的最大作用很可能是在促进科学立法上。这是因为,在我国,很多重要法律和公共政策中的讨论,都缺乏对基本事实问题的调研,特别是缺乏严格的科学证据的支撑。对数据的分析和研究,能够帮助我们更好地测量和理解法律的运行效果,进而帮助我们开展更为科学的立法,推动更为有效的社会治理。


举例而言,刑法学界探讨是否应该提高收买被拐卖的妇女、儿童罪的刑罚,通过打击买方市场来遏制收买行为,但是,我们对拐卖市场的体量、结构,对于卖方的通常身份(是否是亲属、熟人),对购买妇女结婚生子是否是刚需,对农村基层执法中的问题,都缺乏系统的认识,这导致我们并不能确定加重刑罚是否真的对保护妇女儿童有利。  借助机器学习的基本方法,包括决策树模型、回归分析等,我们已经能够为很多法学和社会治理中的重要讨论提供较为严格的科学证据,帮助我们加深对立法和社会治理领域大量问题的理解。实际上,在我国刑法领域,已经有学者对刑事司法政策(广义的刑事立法)的许多方面,包括指定辩护范围的扩张、认罪认罚“从宽”、死刑的震慑效力,做过系统性的大规模数据研究,值得特别关注。  


近年以来,由于互联网的发展以及数据抓取、自然语言处理等方法的普及,用于研究的数据规模、数据多样性、数据颗粒度都得到了很大提升,为大规模数据分析提供了原料。例如,文本数据、社交网络数据、图像音频视频数据、动态实时高频的金融经济数据,都可以得到大规模采集和应用;另外,计算机存储能力和计算能力在十几年间呈指数增长(“摩尔定律”),为较为复杂算法(“人工智能”)的落地应用提供了基础,各种各样的非线性算法,特别是神经网络等深度学习方法,得到了广泛使用。由于以上两点,我们得以用于研究法律运行效果的数据范围,又得到了极大的扩展。


以具体的研究为例。自2016年以来,我国对大量公开开庭审理的案件实行互联网直播,标志着人民法院庭审公开工作进入新阶段。不过,不少中外学者都曾对庭审直播是否影响审判公正表达过担忧。美国前最高法院法官戴维·苏特尔态度激烈:“摄庭审,毋宁死”(the day you see a camera coming into our courtroom, it’s going to roll over my dead body)。实际上,是否要进行庭审直播,是一个司法场景下的公共政策问题,问题的核心是庭审直播的效果如何、是否影响了庭审各方参与人的行为和表现。针对这一问题,研究者在我国开展了对庭审直播的实验研究,并使用人工智能的方法,从庭审音频数据中提取了大量语音、语调、语速、基频等特征信息。同时,研究者也使用算法,将语音转换为文字,又借助自然语言处理的方法,分析了这些文本数据。研究者发现,在庭审直播时,只有当事人的语速显著放慢,法官和诉讼代理人语速则没有显著变化,而所有主体的基频(反映说话人音调高低)范围显著缩小。同时,法官的法言法语使用量明显增多,显得更为庄重肃穆。这些发现表明,庭审直播促使当事人在庭审中更加谨慎、减少所有主体在庭审中的极端情绪和行为;具有较多直播经验的法官和诉讼代理人则不会受到直播的过多影响。这都说明庭审直播没有对审判公正性造成干扰。


又如,随着国内外法律文本的数字化以及司法公开工作的完善,大量法律文本数据涌现。同时,机器学习、自然语言处理、文本挖掘、网络分析等计算技术的进步,不仅为法律学者在传统法学问题上的研究带来了更新颖、更准确的研究工具,更开辟了新的研究领域。在我国,研究者采用自然语言处理的方法,分析了《人民法院报》2010年至2022年间共27505篇法院工作的宣传报道,探究了法院在司法职业化与司法大众化、企业利益与劳动者利益、刚性执行与柔性执行、修复感情与协助离婚、控制犯罪与人权保障这几组司法价值取向间的偏向及其历史变化。  这不但为我们了解中国法院工作动向提供了窗口,更重要的是为司法政策的制定提供了客观数据的科学支撑。


可以看出,对于几乎每一个立法和社会治理的问题,我们都应当做更为精细化的研究和探讨。显然,科学立法,科学制定公共政策、开展社会治理,需要我们利用更多的数据,使用更先进的算法。科学立法是法律大数据和人工智能面临的重要且急迫的任务,也是法律大数据和人工智能有望取得重大成果和突破的领域。


▐  结  语


很多伟大思想家都曾梦想用机器替代法官。例如,莱布尼茨试图将法律简化为一组可以在机器上自动执行的算法,在告知案情后,便可给出法律结论。在不少人看来,机器更为公正无私,由机器而非法官来进行判决,将彻底消除人类在执法过程中的自由裁量以及由此引发的滥权,从根本上去除司法中的法外因素,保障裁判公正,实现社会正义。只不过,在今天,即便人工智能技术飞速发展,即便有了看似神奇的大语言模型和文生视频模型,这一梦想仍然显得十分遥远。客观了解当前技术的前沿和局限,是技术得以发展和应用的前提。认清现实后,我们可以更为脚踏实地、更为切实地考虑机器到底能为法律人做些什么。本文是对此问题的一个尝试性回答。






编辑:宋建宝

 排版:覃宇轩

审核:杨   奕


       

HKUCCL
香港大学法律学院黄乾亨中国法研究中心
 最新文章