大模型评估公司 Vals AI 将与法律科技公司、律所联合开展 AI 基准研究

文摘 2024-10-22 12:30 上海

10 月 17 日，大模型评估公司 Vals AI 宣布将联合法律科技公司、律所等各方开展 AI 基准研究，关注各种法律 AI 工具的准确性。

当下，生成式 AI 缺乏足够的透明度，市场也缺乏对这些工具的基准研究。

在过去一年里，很多法律科技公司发布了关于其 AI 产品的基准报告，各种结果显示 AI 的表现普遍高于人类，但对于某些法律任务，特别是法律研究，错误率仍然很高。

这些报告引发了人们对 AI 在专业服务中可以发挥效用的质疑，使律师、律师事务所和其他法律服务提供商感到困惑和不确定。

今年 5 月，斯坦福大学发布了一份名为《“无幻觉？评估领先的 AI 法律研究工具的可靠性》的论文 —— 虽然该研究因采用的方法论而受到法律行业的广泛拒绝，但它强调了法律 AI 工具缺乏透明度的现实问题。

这篇论文重点分析了两家头部法律研究公司 Thomson Reuters 和 LexisNexis 旗下的 AI 法律研究工具的可靠性，特别研究它们在生成内容时是否会出现“幻觉”（hallucinations）—— 即 AI 编造虚假信息。

论文地址：

https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

目前，AI 在法律实践的使用急剧增加，这些 AI 工具可协助法律专业人士处理案例搜索、总结、文件起草等一系列核心法律任务。

但是，这些工具使用的大模型容易出现幻觉，在高风险领域中使用存在较大风险。

尽管一些法律研究公司声称他们采用的方法（如检索增强生成/RAG），可以“消除”或者“避免”幻觉的出现，但由于这些系统的封闭性，评估这些说法的真实性存在挑战。

为此，斯坦福大学下设以人为本的人工智能（HAI）研究中心构建了一个共 200 多个法律查询的数据集，然后在 Lexis+ AI、Ask Practical Law AI、Westlaw 和 GPT-4 进行测试，评估这些产品的输出准确性。

出乎意料的是，尽管与通用 AI 聊天机器人（如 GPT-4）相比，Thomson Reuters 和 LexisNexis 旗下各 AI 法律研究工具的“幻觉”有所减少，但“幻觉率”仍然很高。

论文发现，Westlaw 的幻觉频率，几乎是 Lexis+ AI 的两倍 —— Lexis+ AI 的幻觉时间为 17%，Westlaw 的幻觉时间则高达 33%。同时，Lexis+ AI 在 65% 的时间提供了准确的答案，而 Westlaw 提供了准确答案的时间只有 42% —— 这些数据比两家公司所宣传的次数要多得多，揭露了法律科技公司们长期以来对自家产品的炒作，言过其实。

论文发布后，包括 Thomson Reuters 和 LexisNexis 在内的很多法律科技公司和法律专业人士都拒绝了该论文的结论，声称论文的统计方法错误，Thomson Reuters 还表示该论文团队使用了错误的工具测试。

然而，更新后的论文仍然呈现以上结果。

对此，Thomson Reuters 团队撰文表示：

“我们非常支持像这样的测试和基准解决方案的努力，我们支持斯坦福研究团队最近对基于 RAG 的法律研究解决方案进行研究的意图，但当我们看到 AI 辅助研究存在与幻觉有关的重大问题时，我们感到非常惊讶。事实上，该论文的结果与我们自己的测试和客户的反馈截然不同。
我们致力于与论文的研究人员合作以了解更多信息，但根据我的经验，该研究比我们内部测试的不准确性率更高的一个原因可能是，该研究包括我们在 AI 辅助研究中很少或从未见过的问题类型。这里学到的一个关键教训是，这些产品的用户体验可以更明确地说明系统的具体限制。”

其中，出现这些差异的原因可能是 Thomson Reuters、LexisNexis、斯坦福团队三方对于 AI “幻觉”的定义略有不同。

例如，Thomson Reuters 认为对查询不准确的输出就是“幻觉”，LexisNexis 表示基于有链接的法律引用其 AI 法律研究产品可以达到“100% 无幻觉”，而斯坦福 RegLab 和 HAI 研究中心对“幻觉”的定义除了包括对于事实不准确的回应，还包括引用了错误的来源。

因此，Thomson Reuters 和 LexisNexis 最初都声称，他们内部测试“幻觉”显示的数据，都低于这份斯坦福论文的研究结果。

然而，关于法律 AI 产品的准确性问题，每家公司都有自己公布的数据和一套解释说法，但似乎都没有很大的说服力。

这个问题的背后，是当下仍然缺乏对于评估大模型可靠的「基准测试」研究方法。

基准测试是一个具有很高挑战性和资源密集型的研究领域，特别是在法律行业等专家领域，这对于负责任地使用 AI 至关重要。

然而，目前 Thomson Reuters、LexisNexis 和市场上的大多数法律 AI 公司，都没有公开任何关于其法律 AI 工具的内部测试基准。

对于这个问题，我国智慧司法技术总师系统、浙江大学、上海交通大学、阿里云计算有限公司、科大讯飞研究院联合发布了一份《法律大模型评估指标和评测办法（征求意见稿）》，希望促成行业统一的法律大模型评测标准。

但据法律修音机了解，这份文件其实也还不够成熟，其目的更多在于让各家法律科技公司“不要吹牛”、“不要搞坏了市场”。

此外，斯坦福的研究还指出，Westlaw 的高幻觉率可能部分归因于该产品的回复篇幅 —— Westlaw 的输出平均篇幅为 350 字，而 Lexis+ AI 仅为 219 字。由于输出更长，Westlaw 的输出就有可能包含更多可证伪的内容，因此更有可能出现幻觉。

在缺少统一基准测试的情况下，Thomson Reuters 和 LexisNexis 一直在通过「收购」提升自家产品的 AI 能力。

例如，Thomson Reuters 于 2023 年 8 月收购了法律研究领域的有力挑战者 Casetext，LexisNexis 也于今年 6 月收购了 CLM 初创公司 Henchman，持续增强 AI 能力👇

拓展阅读：突发！LexisNexis 收购合同起草初创公司 Henchman，持续增强 AI 能力

因此，全球多个行业团体和法律从业人员呼吁对法律 AI 平台进行独立的基准测试，以建立市场对法律 AI 工具的更多理解和信任。

大模型评估公司 Vals AI 联合法律 AI 的相关各方开展基准研究，以评估法律行业常用 AI 平台的准确性和有效性，可以说正合时宜。

参与这一研究的机构包括 Reed Smith 和 Fisher Phillips 等美国顶级律师事务所，法律 AI 公司 Harvey、LexisNexis、Thomson、vLex、Vecflow，ALSP Cognia，以及法律科技咨询公司 Legaltech Hub 等。

这可能是多家律所和供应商首次共同对法律 AI 工具在法律任务的表现进行客观评估。

这项研究将聚焦于交易、争议和咨询等领域的法律任务，包括与文件相关的任务、案例分析以及法律和市场研究等。具体步骤为：

对于每项任务，参与的律所将会提供一组精心挑选非机密或公开来源的法律文件，以及带有标准答案的问题；
在各 AI 平台上测试问题并收集输出，同时 Cognia 的律师将在没有任何法律 AI 工具的支持下执行每项任务；
Vals AI 的自动评估框架平台将会按照一个评分标准，考虑 AI 输出答案的准确性、有用性、引用、风格以及格式，将 AI 的输出结果与律师的答案进行比较。为确保自动评估平台的准确性，任何自动评估失败的测试都将由一组独立的法律图书馆员进行人工审查，以防止任何误报结果。

除了准确性和性能之外，还有其他一些因素也可能影响律所实施 AI 技术，比如成本和用户体验，这些因素目前不包括在这项研究中，但 Val AI 计划未来也考虑纳入这些因素。

这项研究将于 2024 年 10 月和 11 月进行，最终报告计划在 11 月底或 12 月初发布。

更多法律科技前沿资讯

可询问「法律修音机」AI 智能体

⬇️⬇️⬇️

欢迎联系

法律修音机（Legal Studio）是一个具有全球视野的法律科技自媒体，也是个高质量的交流社区，致力于传播全球法律科技的前沿资讯和深度内容，让好产品和好内容被看见。

自成立第一天起，法律修音机 Legal Studio 就致力于推出法律科技相关的教育资源。随着 AI 浪潮席卷法律行业，我们也希望帮助整个行业为 AI 即将随处可见的世界做好准备。

目前，我们构建了一个【法律科技智库】，并被飞书官方社区收录，访问量已经 1W+👇

🔗 智库地址：

https://www.feishu.cn/community/article/wiki?id=7384712700309274628

与此同时，我们还组建运营了一个【法律科技社区】，平时分享法律科技和 AI 相关的前沿信息，并进行高质量的讨论。截至目前，社区已经有 1500+ 实名制入群的朋友，包括法律科技从业者、律师、法务、法学院师生、其他领域的创业者和投资人等，背景非常多元。

💡了解更多：

🎟️法律科技专栏：

👉Legaltech Insight：仅包含前沿资讯

👉Legal Studio 法律科技智库（专业版）：包含前沿资讯，以及深度洞察和创新案例

注：付费用户请联系法律修音机主理人，开通智库（飞书版）权限，解锁更多内容。

更多合作方案

⬇️⬇️⬇️

最后，如果你对法律科技尤其是「AI+法律」感兴趣，希望及时了解相关资讯，或者有产品或活动想在社区推广，又或者希望参与到社区的共建中，欢迎联系法律修音机主理人。添加微信请备注：姓名-工作单位-职位。

点击关注「法律修音机」，你将会感受到一个朋克的灵魂，且每篇文章都有惊喜。

http://mp.weixin.qq.com/s?__biz=MzUzOTcwMTE5OQ==&mid=2247489405&idx=1&sn=ab3ebc6c68d3834186c6d6a559dff1c2

法律修音机

做天下生意，吊四方胃口。

最新文章

智库上新｜全球法律科技融资/并购数据库（更新至 2024.10）

🥇2024 年 10 月法律科技月刊

2024 年第四十四期法律科技周报（10.28-11.3）

2024 年第四十三期法律科技周报（10.21-10.27）

新加坡最高法院大法官：AI 时代，初级律师必须具备的法律技能

法天使双 11 优惠：智能合同审查全新上线，现在下单加送会员 1 个月

深度了解「AI+法律」市场现状，法律修音机整理了 160 份研究报告

行业研究｜融资 1.35 亿，估值超 10 亿美元的法律 AI 公司，帮 1000 家律所追回了 15 亿赔偿金

首届「法律科技市集」即将在京举办！诚挚邀请优秀机构一起共建🤗

谷歌再次出手！合同起草初创公司 Genie AI 完成 1780 万美元 A 轮融资

要标准，不要 AI 🥊标准合同库 Law Insider 收购 NDA 开源项目 oneNDA

大模型评估公司 Vals AI 将与法律科技公司、律所联合开展 AI 基准研究

2024 年第四十二期法律科技周报（10.14-10.20）

YC S24 法律 AI 公司汇总：AI 只是一个技术手段，场景才是核心

全方位了解法律 AI 监管趋势：40+ 法院 AI 监管规定库，正式上线🤗

飞书旗舰版免费用🤩Legal Studio 法律科技社区上线啦！欢迎加入→

2024 年第四十一期法律科技周报（10.7-10.13）

一键处理 4w 字长文本、真的会推理，慧多宝法律 AI 让我轻松躺平🤓

关于法律科技任何问题，问它就行了🤏

1300000000$！2024 年 Q3，28 家法律科技公司融资 90 亿

法律人应该知道的人工智能词汇表 2.0

重磅！法律 AI 公司 EvenUp 完成 1.35 亿美元 D 轮融资，估值 10 亿美金

全面了解法律科技市场：13,000+ 法律科技公司数据库，正式上线🤗

2024 年第四十期法律科技周报（9.30-10.6）

智库上新｜全球法律科技融资/并购数据库（更新至 2024.9）

【融资】2024 年 Q3 法律科技融资新闻汇总

🥇2024 年 9 月法律科技月刊

2024 年第三十九期法律科技周报（9.23-9.29）

观摩法律科技产品大赛：什么样的产品，才能从律师手里赚到钱？

时代变了！Rocket Lawyer 获开创性许可，非律师也能提供法律服务了

「自研」还是「采购」？世界上最大的律所推出 AI 合同自动化试点项目

腾讯元器+公众号：每家律所，每个律师，都可以拥有自己的 AI

2024 年第三十八期法律科技周报（9.16-9.22）

强强联合！金山云与法狗狗科技达成战略合作共拓法律+人工智能新边界

「合同数据」争夺战已开启！三家新锐的 CLM 公司被巨头收购了🤔

2024 年全球法律科技一手资讯，持续更新中：■■■■■■■□□□

2024 年第三十七期法律科技周报（9.9-9.15）

市场需求驱动+产学研创新环境，欧洲法律科技市场正在崛起⤴️

5400 亿 token 专业法律数据！又双叒叕出现一个“法律大模型”

美国法官解释用 AI 判案：AI 输出存在不确定性，是好事还是坏事？

司法部：全国共 400 万专业法律服务人员，还不包括法律咨询公司

400 万！律师行业要变天了🤯

2024 年第三十六期法律科技周报（9.2-9.8）

又一机构任命「首席 AI 官」：AI 在组织落地，技术到落地存在一道鸿沟

超级个体 vs. 超级组织：AI 如何在法律行业落地应用，风向已经变了

智库上新｜全球法律科技融资/并购数据库：新增 2024.8 数据、并购原因

🥇2024 年 8 月法律科技月刊

2024 年第三十五期法律科技周报（8.26-9.1）

香港“法天使”获新一轮融资：关于 AI 合同起草审查，很多律师都理解错了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉