律师测评:这些主流AI工具,到底能不能做好法律检索和合同审查

职场   2024-12-17 18:22   北京  


AI正在逐渐改变人们的工作和生活,对于法律人来说,AI在法律检索、智能问答、合同审查方面已有初步应用,但究竟效果如何,本文针对市面上常见的约20款智能工具进行了测评,供法律人参考。


本文共分为两大部分,第一部分对市面上主流的、著名的20款AI工具进行了民商法领域的针对性测评;第二部分为以合同拟定与审查为主题的法律AI专项测评,选择了14个支持相关功能的AI工具,进行合同拟定与合同生成两个维度的测评



文|卢健团队

来源大成福州办公室


- 1 -
民商法领域针对性测评


01
测试对象与方法

本次测试精选了来自各大高校、互联网大厂与法律领域内的著名AI团队所开发的共计20款模型,既包括了通用模型,也包括了法律领域垂直模型。

但是,由于复旦大学开发的DISC-LawLLM模型网页无法打开,法观1.0、北大Chatlaw模型尚处内测,审判AI大模型、PowerLawGLM仅限特定对象使用,以及合同嗖嗖等模型只能用于审查合同无法支持本项测评。


因此,有效的测评对象为14个,具体如下所示:



本次测试将从一个法律从业者的角度,围绕检索能力、分析能力、输出结果、使用体验、商业角度对受试AI进行全方位评价,具体标准如下:


02
测试结果

本次测试选择了3个民商领域项下问题进行提问,问题类型分别为简短的程序性问题、涉及时效与溯及力的中长案例、以及一个长案例,以争取获得一个全面的测试结果,具体问题与获得各AI的回答如下:

问题一:通过减资返还投资款的程序

kimi

Metalaw

得理法搜

豆包

法宝GPT4.0

法宝GPT4o-mini

海瑞智法

律皓法律管家

腾讯元宝

通义法睿

万象法律大模型


文心一言

讯飞星火

智谱清言

向下滑动查看所有内容


问题二2020年1月5日,A公司与B公司订立采购协议,约定A公司向B公司提供技术服务。然而,在A公司提供技术服务后,B公司未能且无力支付服务费用。为此,2024年7月1日,A公司提起诉讼要求B公司偿还服务费用。已知B公司有甲、乙两位股东未届出资期限未实缴股东,还有丙、丁两位前股东未届出资期限未实缴出资即转让股权。

B公司能否在诉讼中追加甲、乙、丙、丁作为被告?若能,能要求他们承担何种责任?若不能,能否在执行程序中追加甲、乙、丙、丁为被执行人?适用的法律依据分别是什么?


kimi

Metalaw

得理法搜

豆包

法宝GPT4.0

法宝GPT4o-mini

海瑞智法

律皓法律管家

腾讯元宝

通义法睿

万象法律大模型

文心一言

讯飞星火

智谱清言

向下滑动查看所有内容


问题三(2022年法律职业资格考试主观题商经知第1题)艺风有限责任公司(以下简称艺风公司)成立于2014年,由张某和赵某出资设立,注册资本100万元。

为引进资本,赵某和张某找到了华云投资。华云投资系有限合伙企业,杨某为合伙事务执行人。2015年5月,赵某、张某、艺风公司与华云投资、杨某签订了《投资协议》,约定:

1. 华云投资为艺风公司注资2000万元,占股20%。股款分两次缴纳,第一期1000万元在2016年6月1日缴纳,第二期1000万元在2016年12月31日缴纳;

2. 赵某和张某应当在2016年12月之前缴清出资;

3. 任何一方不按期缴纳出资的,守约方有权解除《投资协议》。

2016年6月,华云投资按期缴纳了第一次投资款,将1000万元打入了艺风公司的账户,艺风公司变更了股东名册,办理了工商登记变更。华云投资委派刘某、王某担任艺风公司的董事,与张某共同组成董事会,赵某继续担任监事。

在一次招投标中,刘某利用董事职权,致使刘某的同学中标而艺风公司未能中标。为此,刘某与张某之间爆发了激烈冲突。张某要求罢免刘某董事资格,刘某表示公司发放董事报酬后就辞职。张某表示公司章程中规定董事没有报酬。

艺风公司要求华云投资撤销对刘某、王某的委派,华云投资只同意撤销对刘某的委派,不同意撤销对王某的委派。同时,华云投资未能按期缴纳第二笔投资款。经过艺风公司多次催缴,华云投资以资金不足、赵某和张某也未履行出资义务为由拒绝缴纳第二笔投资款。

张某于2017年2月提议召开股东会,艺风公司在2017年7月22日召开股东会,针对三个事项进行决议:

1.罢免刘某的董事资格;2.罢免王某的董事资格;3.解除《投资协议》。

三项决议均符合公司法及公司章程规定的决议通过比例,但华云投资的代表只同意第一项,不同意第二、三项且拒绝签字盖章。

2017年8月,赵某和张某找到了新的投资人兆尚投资,便以艺风公司名义向华云投资递送了解除《投资协议》的通知函,将1000万元退还至华云投资账户,并于工商登记机关办理了华云投资的股东注销登记和艺风公司的股东变更登记。华云投资拒绝签收通知函,但也并未返还1000万元。

请问,艺风公司是否可以向企业登记机关申请注销华云投资的股权和股东登记?为什么?其向华云投资返还1000万元的行为是否合法?为什么? 


kimi

Metalaw

得理法搜

豆包

海瑞智法


律皓法律管家

腾讯元宝

通义法睿

文心一言

讯飞星火

智谱清言

向下滑动查看所有内容


本次测评严格按照小项描述进行打分,扣除由于无法回答长问题的特殊项扣分后进行排序,得到了下列评分结果,具体分析将在下文展开。


03
检索能力

评价标准:首先,我们将对各AI的“检索能力”进行分析,针对上述三个问题的法规定位如下:

问题一:《公司法》第三十二条、第三十三条、第二百二十四条

问题二:《公司法》第五十四条、第八十八条、《最高人民法院关于民事执行中变更、追加当事人若干问题的规定(2020修正)》第十七条、第十九条、《最高人民法院关于适用〈中华人民共和国公司法〉时间效力的若干规定》第四条第一款

问题三:《公司法》第五十二条

三个问题涉及法规共九条,测试方法为“定位准确性”每列举一条相关法规加一分、每列举一件无关案件扣一分,“资源有效性”为检索的案例法规中每一无效资源扣一分,“数据时效性”为每检索一条过期法规该项直接归零。其中,“数据时效性”主要用于检验模型是否及时更新《公司法》的相关内容,其余的无法律效力的情况纳入“资源有效性”部分计分。本部分得分如下:


分析如下:(1)本次测试中,除“万象法律大模型”与“Kimi”之外,共有10个模型引用了旧《公司法》,剩余2个模型未明确引用《公司法》而未被计入,这反映了大部分模型都存在数据滞后的问题。在法律领域,AI模型无法及时更新数据库,将导致法条定位根本错误。尽管部分模型检索到了《公司法》的司法解释进行替代,也还是增加了法律工作者甄别其效力与二次检索的负担,不能有力地帮助法律人解决问题。

(2)在“数据有效性”方面,“讯飞星火”与“豆包”在回答中均未提及《公司法》的具体款项,法律从业者无法直接判断其“数据时效性”,帮助有限,因此暂取2分计算。

(3)此外,“资源有效性”得分为7的三款模型,“海瑞智法”、“律皓”引用了失效的《公司登记管理条例》但是并未注明其效力问题,“Metalaw”则是引用了失效的《合同法》。

综上,AI模型对法律的规定和案件的检索不应根据数量而决定,好的检索能力应该体现在对法规和类案的精准定位和对无关信息的排除。同时,及时更新的数据库在法律领域内更是模型检索的本钱。

04
分析能力

评价标准:分析能力的测试焦点集中于AI模型对法规、案情的分析能力,以及输出结果的正确率。其中,“法规分析”主要评价模型是否能对法规进行正确地分析与适用;“案情分析”主要集中通过模型对问题二和三的法律问题识别正确与否进行评分,每个问题各4分;“结论正确性”采取扣分制,三个问题共九个答题点(参考答案详见文末),每漏答一点扣一分。

通过上述测试方法可以得到如下结果:


bb(1)从结果上可以看出,大部分模型能得出正确答案是因为本次测试相关内容涉及《公司法》新旧条款的变化不大,且存在继续生效的的司法解释。

(2)大部分AI都是在回答较长的问题三时出错,没有分析出其本质上是“除名”的相关问题。结合“问题分析”的得分情况来看,可以体现出目前各AI模型对简单问题的分析能力较强,针对复杂案件缺少定位法律问题的能力,对复杂问题进行分析较为乏力。

(3) “文心一言”在分析能力上表现突出,但综合分析能力与检索能力两项来看, “文心一言”在回答问题二时,引用了旧《公司法》与《公司法司法解释(三)》,由于《公司法》在股东未届期未实缴的责任规定上未做太大变化,仅仅增加了加速到期以及未实缴即转让股权的股东承担补充责任的规定,这使得其依然可以靠滞后的数据库分析出正确答案。而在回答问题三时,“文心一言”使用“抽逃”来进行解答,而非“除名”。从这可以看出,高正确率的背后可能是不易察觉的隐患,可能存在结论高正确率却适用法律错误、法律问题定位偏移的情况,具有较高的误导性。

05
输出结果

评价标准:“稳定性”:通过重复提问三次,查看结果是否一致,每出现一次前后矛盾扣4分;“可行性”:基础分5分,主要通过考查结果的细致程度与是否具有实用的建议进行加减分;“可区分度”:基础分8分,若存在一处引用而未注明之处扣一分。

通过上述测试方法可以得到如下结果:


分析如下:(1)大部分模型的结果都是罗列法条再加上结论。这也使得“可行性上”的总体得分偏低。而“可行性”得分为3的模型主要的低分原因就是在缺少法条解读的基础上,不写明法条内容,需要使用者进行进一步检索来完善,可行性低。部分AI模型,如“海瑞智法”、“讯飞星火”,更是答非所问,在”可行性”上得分为0。

(2)除“万象法律大模型”在问题二的回答上外,各模型的稳定性表现良好,AI生成的内容与引用法规与案件案件可区分度高。

06
使用体验

评价标准:围绕使用体验(处理速度、简洁程度、资源关联)对各个模型进行测评后可以得到如下结果:


分析如下:

(1)法律垂类AI总体的使用体验高于通用AI,这主要是资源关联度的原因,通用AI对答案的引用资源链接不足。

(2)在处理速度上,除Metalaw外,所有模型均能在10s内输出结果,使用体验较好。以下是Metalaw输出结果的录屏:


(3)在简洁程度上,主要可以分为三档。“4分档”为以通用AI为代表的搜索引擎式的输入框。就算该档的模型界面具有多项功能,其功能转换方式也清晰明了。“3分档”的三个垂类AI的问题主要是功能较多,但通用的输入框位置不明显。“2分档”为北大法宝的两个模型,原因在于其官网的功能众多且同时兼容多个AI模型,存在着入口难以查找、页面拥挤的问题。

(4)在资源关联上,亦可分为三档。“4分档”均为法律垂类AI模型,均能提供参考法规与案例的链接,而无需额外搜索;“2分档”的三个通用AI模型仅仅在部分回答中标明引用出处并提供链接;“0分档”的三个通用AI模型则在回答法律问题时不提供任何链接。

07
商业角度

评价标准:从商业角度评价大模型主要的标准是性价比,即考虑其收费与功能。收费上,只要平均价格低于1元/天即为满分;而功能则要综合考虑其实用性与是否能满足其定位的要求。结果如下:


分析如下:

(1)从得出的结果分析可知,排名的结果主要受收费高低的影响。这是由于无论是法律垂类模型与通用AI模型其除主要的对话功能外的法律相关功能,诸如长文本阅读、生成法律文本、模拟法庭、提供律师法官信息等,或可以由对话功能替代,或没有实际价值,使得这些模型除了核心功能外并无其他加分项。

(2)而在定位与功能上值得关注的是Metalaw与万象法律大模型(元典问达),它们正好形成了正反两个例子。二者共同之处在于都对输入的方式进行了特殊处理,Metalaw作为专注于案例检索的模型,区别于传统的法律数据库,无需总结关键词,AI会自动完成自然语言到法言法语的转换;而元典问达既涉及类案检索,又涉及法规检索和网络文章归纳,但同样是案例检索得出的结果,其输出的结论相较于Metalaw而言正确率更低且较为模糊,亦无法像其他模型一样将案例与法规整合输出,更繁琐的功能反而不能满足其定位的需求。

由此可见,过于宽泛的功能如果缺乏深度的研究和开发,终究不过是将核心的对话功能新瓶装旧酒,并不能满足其定位的真正要求,浅显的功能也能为其他模型所轻易替代。

08
总结

综上所述,总体上来说,所有模型都算不上好用,普遍存在数据库滞后、功能多样但是针对性弱、无法理解复杂案件、缺乏法规分析、需要二次检索等问题。相比来说,传统的法律类检索工具,如“北大法宝”、“威科先行”,能够准确定位到具体法规与案例并注明效力,可能更符合法律人的需求。

相较而言,Kimi各方面能力比较准确与均衡,万象法律大模型(华典问达)虽然无法回答长问题且案例分析功能较为薄弱,但其在法规分析模式中的中短问题回答上较为准确,法律从业者可以根据需求选择使用。而“文心一言”、“Metalaw”等其他模型虽然在结论正确率或是案例检索上有突出表现,但是由于其数据更新滞后等问题存在着输出错误的风险,使用其结果时需要更为谨慎。

最后,本次测试中AI模型表现差强人意的原因在于其只是机械地将法律法规生硬适用在具体的案例上。而在现实中,法律人需要“心中充满正义,目光不断往返于事实与规范之间”,灵活地审视案件事实与其背后的法律意义,同一事实可能考虑多种诉讼策略与不同争议焦点,在合法的范围内最大限度地维护当事人的合法权益。

目前,人工智能只能对法律人的工作起到初步的辅助作用。未来,AI可能会以更多样的姿态活跃在法律领域,但是模型输出结果仅仅是对过往的描摹,更多的可能性仍需要法律人创造。


附:测试问题参考答案(向下滑动查看)


问题一:①股东会作出合法有效的减资决议;②编制资产负债表及财产清单;③依法通知债权人并公告;④债权人有权要求公司清偿债务或提供担保;⑤依法向企业登记机关办理变更登记。

问题二:(1)B公司可以申请追加甲、乙、丙、丁为被告(1分)。根据《公司法》第54条规定当公司无法清偿到期债务时,公司或者已到期债权的债权人有权要求那些已认缴出资但尚未到达约定出资期限的股东提前缴纳其出资,故本案中可以申请追加甲、乙两个未届期未实缴的股东为被告,要求他们提前履行出资义务。丙、丁未届期未实缴即转让股权,根据《最高人民法院关于适用〈中华人民共和国公司法〉时间效力的若干规定》第四条第一款:”公司法施行前的法律事实引起的民事纠纷案件,当时的法律、司法解释没有规定而公司法作出规定的下列情形,适用公司法的规定:(一)股东转让未届出资期限的股权,受让人未按期足额缴纳出资的,关于转让人、受让人出资责任的认定,适用公司法第八十八条第一款的规定…”。《公司法》第八十八条第一款规定对于未届期股权转让,出资义务主体由转让人变为受让人,原则上由受让人在出资期限届至时承担出资义务,转让人承担补充责任。本案中丙、丁对受让人在未缴纳出资范围内承担补充责任,可以申请追加其为被告。

(2)如B公司未能追加甲、乙、丙、丁为被告,在执行阶段能否追加其为被执行人,需分情况讨论。根据《最高人民法院关于民事执行中变更、追加当事人若干问题的规定》第十七条与第十九条规定,作为被执行人的公司,财产不足以清偿生效法律文书确定的债务,申请执行人申请变更、追加未缴纳或未足额缴纳出资的股东、出资人或依公司法规定对该出资承担连带责任的发起人为被执行人,在尚未缴纳出资的范围内依法承担责任的,人民法院应予支持;其股东未依法履行出资义务即转让股权,申请执行人申请变更、追加该原股东或依公司法规定对该出资承担连带责任的发起人为被执行人,在未依法出资的范围内承担责任的,人民法院应予支持。因此,若甲、乙已界出资期限,则可以追加甲、乙、丙、丁为被执行人,甲、乙在未缴出资范围内承担责任,丙、丁对甲、乙的责任承担补充责任;若未界出资期限,符合《中华人民共和国企业破产法》第二条第一款企业法人不能清偿到期债务,并且资产不足以清偿全部债务或者明显缺乏清偿能力,又不申请破产的情况,可以申请追加甲、乙、丙、丁作为被执行人,甲、乙在未出资范围内依法对公司不能清偿的债务承担补充赔偿责任,丙、丁对甲、乙的责任承担补充责任。新《公司法》生效后,法院可能会支持直接追加甲、乙、丙、丁为被执行人,理由同上。(1分)

问题三:(1)不可以申请注销(1分)。艺风公司解除与华云投资的《投资协议》,继而申请注销华云投资对应股权的行为,本质上属于对华云投资进行“除名”。根据《公司法》第52条的规定,股东未按期足额缴纳出资义务,经过公司书面催缴后仍未即时缴纳的,公司可以通过董事会决议向该股东发出失权通知。自通知发出之日起,该股东丧失其未缴纳出资的股权。但失权并不等于“除名”,本案中华云投资已经缴纳了1000万元出资,剩余1000万元出资未缴纳,故公司只能通过法定程序将华云投资未出资的1000万元对应的股权失权,但不能直接将其除名。

(2)向华云投资返还1000万元的行为不合法(1分)。如果华云投资未缴纳出资对应的股权失权后,相应的股权应当依法转让,或者相应减少注册资本并注销该股权;6个月内未转让或者注销的,由公司其他股东按照其出资比例足额缴纳相应出资。



- 2 -

以合同拟定与审查为主题的法律AI专项测评


01

测试对象与方法


本次测试在上次测试的基础上,排除暂时处于测试的AI模型,精选了面向市场可自由使用的18款模型,既包括了通用模型,也包括了法律领域垂直模型。


但是,由于Metalaw、元典问达、海瑞智法并不支持合同拟定和审核。



因此,有效的测评对象为14个,具体如下所示:




本次测试将从一个法律从业者的角度,主要分为合同拟定与合同生成两个维度对受试AI进行专项性评价,并辅以“收费”、“使用体验”两项进行综合性评价,具体标准如下:



02

测试结果


本次测试中,“合同拟定”部分选择了以技术服务合同为考核背景,考验模型的专业表达能力、风险识别能力与法律适用能力、逻辑性,“合同审查”部分通过设计一个在交易模式上存在风险、基本条款缺失、条款存在基本错误、用语不当的“背靠背”数据授权合同考验模型对交易模式、结构、条款、文字符号的审查能力。最后结合“收费”、“使用体验”进行综合测评,以争取获得一个全面的测试结果,具体问题与获得各AI的结果如下:


合同拟定:联动公司将与英浪达公司将签订一份人工智能算力技术服务合同,内容为英浪达公司向联动公司提供算力技术服务、远维服务、网络改建服务,服务期限为5年,并以服务器等设备提供担保,请从服务内容、履行期限、款项支付、交付验收、权利义务、违约责任、知识产权与保密义务、争议解决等方面。为联动公司拟定一份合同初稿。要求:提示相关交易风险和法律风险,注明各条款涉及的法律依据,公平分配各方权利义务和风险责任。


合同审查:





各AI的结果:


合同审查:

智慧律师

被授权人立场

授权人立场

kimi

包阅

得理法搜

豆包

法宝GPT4.0

法宝GPT4o-mini

律皓法管家

律己

通义法睿

文心一言

讯飞星火

元宝

智谱清言

向下滑动查看所有内容

合同生成:

kimi

包阅

得理法搜

豆包

法宝GPT4.0

法宝GPT4o-mini

律皓法管家

律己

通义法睿

文心一言

讯飞星火

元宝

智谱清言

向下滑动查看所有内容


本次测评严格按照小项描述进行打分,得到了下列评分结果。“智慧律师”由于不具备拟定合同的功能仅参与合同审查的测评。具体分析将在下文展开。



03

合同拟定


各AI模型的合同拟定能力排名如下:



具体解析如下所示。


(一)合规性


评价标准:首先,我们将对各AI生成的合同的“合规性”进行分析。


本部分测评分为“法律适用”与“程序合规”两部分。“法律适用”以各AI适用法律的时效性、关联性进行评判,未注明适用的法律法规的或适用法律太过于宽泛的为0分,但若其交易程序不存在违法情形的计2分,注明适用法律但存在失效或无关情形的每出现一次扣2分。“程序合规”部分,合同中每出现一处不符合法律法规的交易程序扣2分。


分析如下:(1)本次测试中,所有模型拟定的合同在交易程序上均不存在违规的情况。结合具体文本内容来看,这和AI模型熟练掌握合同模板有关。


(2)在“法律适用”方面,除了得分为5分的五个模型和讯飞星火外,其余模型均未注明适用的相关法律或引用过于宽泛,即使在指令中存在明确要求。而讯飞星火由于适用并不存在的《中华人民共和国知识产权法》而扣除2分。


综上,AI模型在拟定合同的合规性上总体情况良好。AI模型对模板的适用较为熟练,但普遍存在不注明适用法律的问题,侧面说明AI模型跳过法律直接套用模板的可能。


(二)周延性


评价标准:“周延性”考察的是模型拟定的合同的完整度与严谨性。其中,“结构严谨程度”以合同的条款的分布结构是否符合惯例,便于阅读理解为标准,分为三档:严谨易懂计5分,合同结构基本合理但略有瑕疵计3分,结构混乱难以阅读计0分。“条款完整度”,缺少一个基本条款或题目要求约定的内容该项即为0分。


分析如下:所有受试模型在“结构严谨”性上均为满分,除了借鉴模板的原因外,也与本次测评的提示词已经编排好了相关结构有关。而“条款完整”度两级分化,主要是由于得分为0的模型均未把提示词中要求的担保条款写入合同。这从侧面体现了部分模型对模板的套用不够灵活,对提示词的处理不够细致。


(三) 可操作性


评价标准:“可操作性”作为合同的重要评价指标,可分为交易程序的”逻辑恰当“程度和合同条款的”表述准确“性。“逻辑恰当”以合同拟定的交易程序的可行性分为三档:切实可行计5分,较为简陋有待补充计3分,难以执行计0分。“表述准确”考察合同用语的严谨性,每存在一处用语不当或基本错误扣一分。


分析如下:所有模型的合同可操作性较好,这主要是因为各模型的表述大致相同,变化较小。但“逻辑恰当”一项得分为3的情况偏多,这主要是因为模型对交易模式的描述过于简单,缺少可操作性,反应了模型对实际交易模式的不熟悉。


(四)公平性


评价标准:“公平性”考察AI模型能否识别潜在风险并相应地初步进行权利与义务的划分,让合同最大限度地为双方接受。“权利义务分配”以权利与义务的对等性与交易的契合度为评分标准分为三档:权利义务对等且与交易需求契合计5分,权利与义务明显失衡或不符合交易需求计3分,权利与义务明显失衡且不符合交易需求计0分。“风险责任分配”考察合同识别潜在风险并合理分配责任的能力,分为三档:成功识别风险且合理分配责任计5分,成功识别风险但责任分配不合理计3分,未识别然后风险或表述太过宽泛计0分。


分析如下:(1)在“权利义务分配”上,各模型得分情况较好,但得分为3的模型对权利义务的描述太过简单,如仅仅对提供服务、收付款等进行规定,可能导致潜在的风险。


(2)“风险责任分配”一项,由于8个模型均未按指令提示风险或提示风险过少、过于宽泛,所以得分均为0。通义法睿由于提示的风险较为简单,参考价值不高评为3分。由此可见,大部分模型识别风险的意识或能力较低,这将短时间内生成的合同可能存在需要再次检测的风险。


04

合同审查


各AI模型的合同审查能力排行如下:



综合来看,豆包仍然在该项保持第一,但得分却未达到总分40分的一半。北大法宝由于采用“智能写作”功能,不排除是该部分模型的功能不适配导致的低分。各个模型在合同审查上存在明显短板,特别是对交易模式的法律风险识别能力、对合同结构的审查能力、对适用法律的效力的审查能力上存在严重不足。具体分析详见下文。


(一)交易模式审


评价标准:该部分测评重点在于AI模型根据合同文本归纳交易模式与识别法律风险的能力。该合同约定的交易模式属于典型的”上下游“、”背靠背“模式,其中由于B公司是C公司的关联公司且B公司具有充足的资金而A公司资金短缺,该交易存在着融资性买卖的可能,即虚假交易的风险。综上,“模式提炼能力”以AI模型能否识别出”背靠背“模式为标准,成功识别计5分,未成功识别计0分。“合法性审查”主要以AI模型能否提示该交易融资性买卖的可能性为标准,成功提示计5分,未成功提示计0分。


分析如下:(1)“模式提炼能力”测评中,仅有6个模型明确指出A、B、C公司之间的上下游交易模式,虽然部分模型在分析“结算方式”时也提及了C公司的存在,但并未在交易模式的分析中点明。这或许与模型分析文本时的先后顺序有关,也侧面体现了模型综合上下文思考能力的不足。“智慧律师”由于审查模式无法输入归纳交易模式的指令,但在结算方式上做出“上下游”交易的专项提醒,本项计2分。


(2)“合法性审查”上,文心一言基于关联公司的提示指出了可能存在利益输送的风险。但是由于大部分模型未识别出上下游的交易关系,所以连锁导致其对融资性买卖的可能性的考虑缺少契机。而成功识别交易模式的模型,多是指出C公司不按约定支付造成的风险,未跳出文本结合提示词的内容进行思考,也体现了模型的实践类经验的不足。


(二)合同结构审查


评价标准:“合同结构审查”主要检测模型对条款完整度与结构逻辑的审查能力。“完整度审查”以模型能否检验出受试合同缺少“违约责任”为标准,成功识别计5分,未成功识别计0分。”逻辑性审查“以模型能否识别”不可抗力“条款的位置发布不当为标准进行评分,成功识别计5分,未成功识别计0分。


分析如下:(1)如表所示,仅有智谱清言提出增加“违约责任”条款的意见。虽然不排除“违约责任”条款不是必要条款的影响,但是作为商事合同,不对违约责任进行约定极易增大潜在风险,体现了模型对交易实践了解不足和风险识别上的弱项。


(2)所有模型都不认为将“不可抗力”条款列在第二条有不妥,体现了模型思考的机械性,有待进一步提升。


(三)合同条款审查


评价标准:“合同条款审查”主要针对AI模型完善条款内容、检验条款适用法律效力的能力。其中,“操作性审查”以模型对“结算方式”的完善程度进行评分,分为5分、3分、0分三档。“法律效力审查”以模型能否识别《中华人民共和国知识产权法》为虚构法律为标准,成功识别计5分,反之计0分。


分析如下:(1)“操作性审查”中,仅有豆包提出既约定具体时间,又约定C公司不支付款项的处理方式的建议。其余获得3分的模型,仅仅建议约定具体的时间。得分为1分的模型建议直接将C公司排除出交易,并非在原基础上加以完善。


(2)而在对适用法律的效力审查上,仅有通义法睿提出应用具体法律(《数据安全法》《个人信息保护法》)的建议,其余模型均为发现《中华人民共和国知识产权法》并非成文法律,更有甚者提到合同符合该虚构法律的规定。这侧面说明了模型审查合同时多数仅仅只是根据文本与提示词进行审查,并未对照数据库中的法律。


(四)文字符号审查


评价标准:“文字符号审查”考察AI模型对法言法语的运用能力和纠正基本错误的能力。“语言润色能力”以模型对“数据合规”用语的三处不当用语的纠正情况为评分依据,每成功纠正一处得两分,满分5分。“纠错能力”模型有关日期、甲乙方署名、标的额大小写的相关错误的纠正情况进行评分,成功纠正一次得两分,满分五分。


分析如下:(1)“语言润色能力”上,没有模型能识别出“假货、冒牌货”的不妥。剩下两处不当用语在有提示的情况下仅仅只有5个模型全部识别出来。AI模型对法言法语的敏感度总体偏低。


(2)“纠错能力”上,仅仅只有豆包和得理法搜发现盖章处甲乙方写反的情况,其余模型多能发现“9月31日”这样的单处错误,但是难以发现金额大小写不对应的问题,这两处问题说明大部分模型综合上下文分析的能力不足。


05

收费与使用体验


评价标准:从商业角度评价大模型主要的标准是性价比,即考虑其收费与使用体验。收费上,只要平均价格低于1元/天即为满分;而“使用体验”以界面简洁程度、输出结果可读性、输入便捷性为评分标准,每有一项不达标扣3分,三项均不达标扣10分。结果如下:



分析如下:(1)从得出的结果分析可知,排名的结果主要受收费高低的影响。这是由于除律皓法管家、律己、通义法睿外,其余模型均支持上传文件进行提问,在审查合同时较为便利,且除得理法搜输出的结果较为杂乱外,其余模型的输出结果排版较好,可读性强。


(2)在使用体验上,律己具有“快速审查”功能,北大法宝也具有专项的合同审核功能。但是实际运行时,律己该功能只有一次免费额度且无法输入提示词提问,故改为应用“法务助手”功能进行提问。而北大法宝的合同审核功能要求开通9900元/年的会员才可使用,故使用“智能写作”功能代替检测。综合合同拟定与和合同审查两项得分,其性价比偏低。


06

总结


综上所述,总体上来说,当前市面上的模型依据庞大的数据库在合同拟定方面较为成熟,但是由于当前模型对合同的分析能力还多停留在文本的逐字理解上,缺少结合上下文、实践经验和法律数据库综合分析的能力,所以模型对合同的审查能力不足。


相较而言,豆包具有很好的合同拟定能力,且在合同审核方面可以做到结合上下文,并对交易风险进行初步提示,可以尝试用于初步审查。而通义法睿、腾讯元宝、律己在合同拟定上的表现较好,可用于辅助参考。至于其他模型的合同审查功能,由于分析能力有限,甚至出现无法审查出合同中“《中华人民共和国知识产权法》”的低级错误,法律人使用时需更为谨慎


最后,结合上一次测评,本次测试中AI模型更多地表现出了一种通过概率计算而产生的机械的思考模式。这启示了我们法律人只有不断地积累实践经验、认真刨析法律与事实之间的种种关系、提升专业能力,才能在借助AI工具提高法律工作的效率的同时,保质保量完成法律服务工作且避免陷于职业风险当中。


附:被审查合同的修改范本(向下滑动查看)



以上内容仅代表本团队律师个人观点,感谢实习生黄毅杨、董新雨对本文作出的贡献!


作者简介:

卢健北京大成(福州)律师事务所律师/高级合伙人

jian.lu@dentons.cn
个人信息保护评估师(CCRC-PIA)
执业领域:数据合规;房地产与建设工程;刑事

杨箫北京大成(福州)律师事务所律师
yangxiao@dentons.cn
执业领域:数据合规;房地产与建设工程;刑事

林芳北京大成(福州)律师事务所律师
lin.fang@dentons.cn
执业领域:数据合规;房地产与建设工程;刑事

陈妍意北京大成(福州)律师事务所 律师助理
yanyi.chen@dentons.cn
执业领域:数据合规;房地产与建设工程;刑事

- End -






2024年,你过得怎么样?12月18日(周三)晚上20:00-21:00,大鱼聊天室首次开启观众连麦互动,欢迎扫码报名。






近期直播,欢迎预约





新则
探索法律行业新规则
 最新文章