美国法官解释用 AI 判案:AI 输出存在不确定性,是好事还是坏事?

文摘   2024-09-11 07:00   上海  


法官也用 AI 辅助判决?

自 ChatGPT 席卷法律行业以来,行业中不乏关于律师向法院提交带有 AI “幻觉”的文件的报道,法院对此进行了制裁,并发布了一系列命令,限制律师使用生成式 AI。相反,法官接受使用生成式 AI 的故事要少得多。

今年 5 月,美国第十一巡回上诉法院的凯文·纽森(Kevin Newsom)法官,在一个案件中使用 AI 工具辅助明确一个词语的普通含义。同时,纽森法官还特地在判决中写了一份协同意见,说明了他使用 ChatGPT 的具体方式,并鼓励法律行业考虑跟随他的脚步👇



9 月 5 日,第十一巡回法院发布一份判决。


在这起案中,纽森法官进一步探讨了 AI 辅助判决的问题:我们应该如何看待 AI 对于完全相同的问题,提供略微不同的答案?


纽森法官表示,AI 的这种不确定性最初让他感到不安,但经过分析,他认为这种不确定性其实不足为奇,而是意料之中的,并且从普通含义的角度看,这种不完全一样的特点,反而充分体现了现实中人们日常的语言模式。


法律修音机整理了本案的争议焦点,以及纽森法官对此的核心观点。如需获取判决原文,请按文末指引进行操作。以下,enjoy:





本案争议焦点


这是一起抢劫案件,被告人在抢劫过程中“对一名受害者进行了身体约束”,法院最终根据这一案件情节,增加了他的刑期。


在这起案件中,被告人在没有任何身体接触的情况下,通过持有枪支让受害者服从,并有效地阻止了他们离开。对此,这起案件的陪审团建议,将《美国量刑指南》§ 2B3.1 (b)(4)(B) 的量刑加重情节适用于本案。


然而,这起案件的争议焦点是“身体约束”这个词语,在任何知名词典中都没有定义,而词典是普通语言解释者通常会求助的工具。


在这种情况下,法官通常会将该短语分解为其组成部分,分别解释每个部分的普通含义,再将这些定义重新组合成一个连贯的整体。


例如,本案的 Rosenbaum 法官认为:“身体约束”在本质上意味着,“与身体有关”的,被“限制”或被“约束” 的状态。


纽森法官也认为这大致是正确的,但由于没有现成的词典定义来解释这个词语,而大模型的本质是捕捉和反映现实中人们如何使用短语的普通含义,于是他询问了 ChatGPT:


纽森:“身体约束”的普通含义是什么?
ChatGPT:“身体约束” 的普通含义是指,通过使用物理力量或某种设备来限制或阻止某人的移动的行为。这可能涉及按住某人、使用手铐、带子或其他机制来限制他们自由移动的能力。该术语意味着对一个人移动的主动和物理干预来控制或限制。


纽森法官表示,ChatGPT 的回答基本上与他认为的含义相符,也与 Rosenbaum 法官用传统分解和重组方法得出的结果相符。


为了避免偏见,纽森法官还问了 Claude 相同的问题,但得到的答案略有不同。


不同的回复让 NewSom 法官有点震惊:


这是否意味着,AI 没有准确地传达它对普通人如何使用“身体约束”这类词语的预测?更糟糕的是,甚至可能没有一个准确的预‍‍测?而标准的纸质印刷词典可不会随意改变。


因此,纽森法官做了一个更深入的实验:分别向三个领先的大模型 —— GPT、Claude 和 Gemini 各查询十次。每一次,纽森法官都会打开一个新的聊天窗口,并提出相同的问题:“‘身体约束’的普通含义是什么?”


最后得出的结论是:这些模型的回答在结构和措辞上存在一些细微的变化,比如 ChatGPT 输出的回复长度往往会有一两个句子的波动,Claude 提供的例子数量也会有所变化。



这是不是一个问题?


那么,AI 对同一个提问给出存在细微变化的回复,我们应该怎么看呢?


对于这个问题,法律行业可能会很快得出 AI 存在幻觉,应该禁止使用或施加监管的结论,保守、追求安全是法律行业的特点。


但是,纽森法官认为:


这些微妙的差异是可以接受的,最重要的是,这些回答实质上都有着一个相同的核心。


例如,三个模型都将“身体约束”这个短语定义为需要使用有形力量,无论是通过直接的身体接触,还是通过其他设备或工具。


从技术角度看,之所以 AI 对同一个提问给出存在细微变化的回复,是因为大模型的本质是“预测下一个词”,即根据上一个词来预测下一个词,虽然最终会得出与用户提问最为相关的预测,但基本上都会存在一些细微差别。


对此,很多人称之为 AI 的“创造力”,而如果模型的创造力被调低,那么对相同问题的回答会更加相似,甚至可能会完全一致。


由于职业特点,法律人天然喜欢确定和清晰的答案,所以会厌恶 AI 的不确定性,但 AI 并不是专为法律人定制的。相反,在头脑风暴、总结大量信息、写论文等场景,多样性、想象力反而是好的,一味的重复是不好的。因此,AI 的不确定性是一个特点,而不是缺陷。


更重要的是,略有不同但实质上一致的答案,反而体现了 AI 在普通含义分析中的效用,即非常类似于我们期望看到的日常语言模式。


什么意思?


我们可以做一下思想实验:


要想搞清楚一个词语的 “普通含义”,理想的衡量标准是对每一个人开展广泛调查。想象一下这个实验会如何进行:你走到街上问无数的人:“身体约束的普通含义是什么?


大概率会发生的情况是:


你不会一遍又一遍地得到完全相同的答案。


相反,你会得到各种各样的回答,这些回答在措辞上会有所不同,但其中往往有一个共同的核心,而这个共同的核心就是普通含义。


事实是,语言是一种有机的东西,就像大多数有机的东西一样,可能会有点混乱,所以我们才会努力去解释各种词语的普通含义。


正是因为大模型是在人们日常语言基础上进行训练的,所以其输出同样不那么完全确定。


纽森法官认为,一些无伤大雅的不确定性,是普通含义评估工作中固有的。因此,AI 的不确定性其实是一种优点,而不是缺点。



纽森法官的结论


最后,有什么收获呢?


1、AI 对于解释普通含义是有价值的,虽然还不完美,挑战仍然存在,但忽视是短视的。


2、将 AI 纳入法院解释性工作的一个重要、而且也许未被充分认识的好处是,AI 能够以标准工具(如词典)无法做到的方式,破译和解释复合多词英文短语的含义。


3、我们应该仔细考虑如何评估和解释 AI 对用户同一提问做出的不同答案,这背后有技术问题,而且也反映了日常语言模式,因此实际上可能会让模型更准确地预测普通含义。


4、AI 不一定可以为解释工作带来科学的确定性,我们不是要直接放弃传统的解释工具(如词典、语义规范等),但 AI 可能在我们评估普通含义时发挥出有价值的辅助作用。


如需获取本案判决原文,请订阅《Legaltech Insight》专栏,开通 Pro 版智库下载👇






欢迎联系


法律修音机(Legal Studio)是一个具有全球视野的法律科技自媒体,也是个高质量的交流社区,致力于传播全球法律科技的前沿资讯和深度内容,让好产品和好内容被看见。


自成立第一天起,法律修音机 Legal Studio 就致力于推出法律科技相关的教育资源。随着 AI 浪潮席卷法律行业,我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。


目前,我们构建了一个【法律科技智库】,并被飞书官方社区收录,访问量已经 1W+👇



🔗 智库地址:

https://www.feishu.cn/community/article/wiki?id=7384712700309274628


与此同时,我们还组建运营了一个【法律科技社区】,平时分享法律科技和 AI 相关的前沿信息,并进行高质量的讨论。截至目前,社区已经有 1500+ 实名制入群的朋友,包括法律科技从业者、律师、法务、法学院师生、其他领域的创业者和投资人等,背景非常多元。


💡了解更多:

👉法律科技智库
👉法律科技社区


🎟️法律科技专栏:

👉Legaltech Insight:仅包含前沿资讯

👉Legal Studio 法律科技智库(专业版):包含前沿资讯,以及深度洞察和创新案例


注:专栏付费用户请联系法律修音机主理人,开通智库(飞书版)权限,解锁更多内容。


更多合作方案,欢迎点击【阅读原文】了解。


最后,如果你对法律科技尤其是「AI+法律」感兴趣,希望及时了解相关资讯,或者有产品或活动想在社区推广,又或者希望参与到社区的共建中,欢迎联系法律修音机主理人。添加微信请备注:姓名-工作单位-职位。



点击关注「法律修音机」,你将会感受到一个朋克的灵魂,且每篇文章都有惊喜。

法律修音机
做天下生意,吊四方胃口。
 最新文章