10 月 17 日,大模型评估公司 Vals AI 宣布将联合法律科技公司、律所等各方开展 AI 基准研究,关注各种法律 AI 工具的准确性。
当下,生成式 AI 缺乏足够的透明度,市场也缺乏对这些工具的基准研究。
在过去一年里,很多法律科技公司发布了关于其 AI 产品的基准报告,各种结果显示 AI 的表现普遍高于人类,但对于某些法律任务,特别是法律研究,错误率仍然很高。
这些报告引发了人们对 AI 在专业服务中可以发挥效用的质疑,使律师、律师事务所和其他法律服务提供商感到困惑和不确定。
今年 5 月,斯坦福大学发布了一份名为《“无幻觉?评估领先的 AI 法律研究工具的可靠性》的论文 —— 虽然该研究因采用的方法论而受到法律行业的广泛拒绝,但它强调了法律 AI 工具缺乏透明度的现实问题。
这篇论文重点分析了两家头部法律研究公司 Thomson Reuters 和 LexisNexis 旗下的 AI 法律研究工具的可靠性,特别研究它们在生成内容时是否会出现“幻觉”(hallucinations)—— 即 AI 编造虚假信息。
论文地址:
https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf
目前,AI 在法律实践的使用急剧增加,这些 AI 工具可协助法律专业人士处理案例搜索、总结、文件起草等一系列核心法律任务。
但是,这些工具使用的大模型容易出现幻觉,在高风险领域中使用存在较大风险。
尽管一些法律研究公司声称他们采用的方法(如检索增强生成/RAG),可以“消除”或者“避免”幻觉的出现,但由于这些系统的封闭性,评估这些说法的真实性存在挑战。
为此,斯坦福大学下设以人为本的人工智能(HAI)研究中心构建了一个共 200 多个法律查询的数据集,然后在 Lexis+ AI、Ask Practical Law AI、Westlaw 和 GPT-4 进行测试,评估这些产品的输出准确性。
出乎意料的是,尽管与通用 AI 聊天机器人(如 GPT-4)相比,Thomson Reuters 和 LexisNexis 旗下各 AI 法律研究工具的“幻觉”有所减少,但“幻觉率”仍然很高。
论文发现,Westlaw 的幻觉频率,几乎是 Lexis+ AI 的两倍 —— Lexis+ AI 的幻觉时间为 17%,Westlaw 的幻觉时间则高达 33%。同时,Lexis+ AI 在 65% 的时间提供了准确的答案,而 Westlaw 提供了准确答案的时间只有 42% —— 这些数据比两家公司所宣传的次数要多得多,揭露了法律科技公司们长期以来对自家产品的炒作,言过其实。
论文发布后,包括 Thomson Reuters 和 LexisNexis 在内的很多法律科技公司和法律专业人士都拒绝了该论文的结论,声称论文的统计方法错误,Thomson Reuters 还表示该论文团队使用了错误的工具测试。
然而,更新后的论文仍然呈现以上结果。
对此,Thomson Reuters 团队撰文表示:
“我们非常支持像这样的测试和基准解决方案的努力,我们支持斯坦福研究团队最近对基于 RAG 的法律研究解决方案进行研究的意图,但当我们看到 AI 辅助研究存在与幻觉有关的重大问题时,我们感到非常惊讶。事实上,该论文的结果与我们自己的测试和客户的反馈截然不同。
我们致力于与论文的研究人员合作以了解更多信息,但根据我的经验,该研究比我们内部测试的不准确性率更高的一个原因可能是,该研究包括我们在 AI 辅助研究中很少或从未见过的问题类型。这里学到的一个关键教训是,这些产品的用户体验可以更明确地说明系统的具体限制。”
其中,出现这些差异的原因可能是 Thomson Reuters、LexisNexis、斯坦福团队三方对于 AI “幻觉”的定义略有不同。
例如,Thomson Reuters 认为对查询不准确的输出就是“幻觉”,LexisNexis 表示基于有链接的法律引用其 AI 法律研究产品可以达到“100% 无幻觉”,而斯坦福 RegLab 和 HAI 研究中心对“幻觉”的定义除了包括对于事实不准确的回应,还包括引用了错误的来源。
因此,Thomson Reuters 和 LexisNexis 最初都声称,他们内部测试“幻觉”显示的数据,都低于这份斯坦福论文的研究结果。
然而,关于法律 AI 产品的准确性问题,每家公司都有自己公布的数据和一套解释说法,但似乎都没有很大的说服力。
这个问题的背后,是当下仍然缺乏对于评估大模型可靠的「基准测试」研究方法。
基准测试是一个具有很高挑战性和资源密集型的研究领域,特别是在法律行业等专家领域,这对于负责任地使用 AI 至关重要。
然而,目前 Thomson Reuters、LexisNexis 和市场上的大多数法律 AI 公司,都没有公开任何关于其法律 AI 工具的内部测试基准。
对于这个问题,我国智慧司法技术总师系统、浙江大学、上海交通大学、阿里云计算有限公司、科大讯飞研究院联合发布了一份《法律大模型评估指标和评测办法(征求意见稿)》,希望促成行业统一的法律大模型评测标准。
但据法律修音机了解,这份文件其实也还不够成熟,其目的更多在于让各家法律科技公司“不要吹牛”、“不要搞坏了市场”。
此外,斯坦福的研究还指出,Westlaw 的高幻觉率可能部分归因于该产品的回复篇幅 —— Westlaw 的输出平均篇幅为 350 字,而 Lexis+ AI 仅为 219 字。由于输出更长,Westlaw 的输出就有可能包含更多可证伪的内容,因此更有可能出现幻觉。
在缺少统一基准测试的情况下,Thomson Reuters 和 LexisNexis 一直在通过「收购」提升自家产品的 AI 能力。
例如,Thomson Reuters 于 2023 年 8 月收购了法律研究领域的有力挑战者 Casetext,LexisNexis 也于今年 6 月收购了 CLM 初创公司 Henchman,持续增强 AI 能力👇
拓展阅读:突发!LexisNexis 收购合同起草初创公司 Henchman,持续增强 AI 能力
因此,全球多个行业团体和法律从业人员呼吁对法律 AI 平台进行独立的基准测试,以建立市场对法律 AI 工具的更多理解和信任。
大模型评估公司 Vals AI 联合法律 AI 的相关各方开展基准研究,以评估法律行业常用 AI 平台的准确性和有效性,可以说正合时宜。
参与这一研究的机构包括 Reed Smith 和 Fisher Phillips 等美国顶级律师事务所,法律 AI 公司 Harvey、LexisNexis、Thomson、vLex、Vecflow,ALSP Cognia,以及法律科技咨询公司 Legaltech Hub 等。
这可能是多家律所和供应商首次共同对法律 AI 工具在法律任务的表现进行客观评估。
这项研究将聚焦于交易、争议和咨询等领域的法律任务,包括与文件相关的任务、案例分析以及法律和市场研究等。具体步骤为:
对于每项任务,参与的律所将会提供一组精心挑选非机密或公开来源的法律文件,以及带有标准答案的问题; 在各 AI 平台上测试问题并收集输出,同时 Cognia 的律师将在没有任何法律 AI 工具的支持下执行每项任务; Vals AI 的自动评估框架平台将会按照一个评分标准,考虑 AI 输出答案的准确性、有用性、引用、风格以及格式,将 AI 的输出结果与律师的答案进行比较。为确保自动评估平台的准确性,任何自动评估失败的测试都将由一组独立的法律图书馆员进行人工审查,以防止任何误报结果。
除了准确性和性能之外,还有其他一些因素也可能影响律所实施 AI 技术,比如成本和用户体验,这些因素目前不包括在这项研究中,但 Val AI 计划未来也考虑纳入这些因素。
这项研究将于 2024 年 10 月和 11 月进行,最终报告计划在 11 月底或 12 月初发布。
欢迎联系
法律修音机(Legal Studio)是一个具有全球视野的法律科技自媒体,也是个高质量的交流社区,致力于传播全球法律科技的前沿资讯和深度内容,让好产品和好内容被看见。
自成立第一天起,法律修音机 Legal Studio 就致力于推出法律科技相关的教育资源。随着 AI 浪潮席卷法律行业,我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。
目前,我们构建了一个【法律科技智库】,并被飞书官方社区收录,访问量已经 1W+👇
🔗 智库地址:
https://www.feishu.cn/community/article/wiki?id=7384712700309274628
与此同时,我们还组建运营了一个【法律科技社区】,平时分享法律科技和 AI 相关的前沿信息,并进行高质量的讨论。截至目前,社区已经有 1500+ 实名制入群的朋友,包括法律科技从业者、律师、法务、法学院师生、其他领域的创业者和投资人等,背景非常多元。
注:付费用户请联系法律修音机主理人,开通智库(飞书版)权限,解锁更多内容。
更多合作方案
⬇️⬇️⬇️
最后,如果你对法律科技尤其是「AI+法律」感兴趣,希望及时了解相关资讯,或者有产品或活动想在社区推广,又或者希望参与到社区的共建中,欢迎联系法律修音机主理人。添加微信请备注:姓名-工作单位-职位。