“
AI正在逐渐改变人们的工作和生活,对于法律人来说,AI在法律检索、智能问答、合同审查方面已有初步应用,但究竟效果如何,本文针对市面上常见的约20款智能工具进行了测评,供法律人参考。
本文共分为两大部分,第一部分对市面上主流的、著名的20款AI工具进行了民商法领域的针对性测评;第二部分为以合同拟定与审查为主题的法律AI专项测评,选择了14个支持相关功能的AI工具,进行合同拟定与合同生成两个维度的测评。
”
文|卢健团队
来源|大成福州办公室
- 1 -
民商法领域针对性测评
向下滑动查看所有内容
向下滑动查看所有内容
向下滑动查看所有内容
- 2 -
以合同拟定与审查为主题的法律AI专项测评
01
测试对象与方法
本次测试在上次测试的基础上,排除暂时处于测试的AI模型,精选了面向市场可自由使用的18款模型,既包括了通用模型,也包括了法律领域垂直模型。
但是,由于Metalaw、元典问达、海瑞智法并不支持合同拟定和审核。
因此,有效的测评对象为14个,具体如下所示:
本次测试将从一个法律从业者的角度,主要分为合同拟定与合同生成两个维度对受试AI进行专项性评价,并辅以“收费”、“使用体验”两项进行综合性评价,具体标准如下:
02
测试结果
本次测试中,“合同拟定”部分选择了以技术服务合同为考核背景,考验模型的专业表达能力、风险识别能力与法律适用能力、逻辑性,“合同审查”部分通过设计一个在交易模式上存在风险、基本条款缺失、条款存在基本错误、用语不当的“背靠背”数据授权合同考验模型对交易模式、结构、条款、文字符号的审查能力。最后结合“收费”、“使用体验”进行综合测评,以争取获得一个全面的测试结果,具体问题与获得各AI的结果如下:
各AI的结果:
向下滑动查看所有内容
向下滑动查看所有内容
本次测评严格按照小项描述进行打分,得到了下列评分结果。“智慧律师”由于不具备拟定合同的功能仅参与合同审查的测评。具体分析将在下文展开。
03
合同拟定
各AI模型的合同拟定能力排名如下:
具体解析如下所示。
(一)合规性
评价标准:首先,我们将对各AI生成的合同的“合规性”进行分析。
本部分测评分为“法律适用”与“程序合规”两部分。“法律适用”以各AI适用法律的时效性、关联性进行评判,未注明适用的法律法规的或适用法律太过于宽泛的为0分,但若其交易程序不存在违法情形的计2分,注明适用法律但存在失效或无关情形的每出现一次扣2分。“程序合规”部分,合同中每出现一处不符合法律法规的交易程序扣2分。
分析如下:(1)本次测试中,所有模型拟定的合同在交易程序上均不存在违规的情况。结合具体文本内容来看,这和AI模型熟练掌握合同模板有关。
(2)在“法律适用”方面,除了得分为5分的五个模型和讯飞星火外,其余模型均未注明适用的相关法律或引用过于宽泛,即使在指令中存在明确要求。而讯飞星火由于适用并不存在的《中华人民共和国知识产权法》而扣除2分。
综上,AI模型在拟定合同的合规性上总体情况良好。AI模型对模板的适用较为熟练,但普遍存在不注明适用法律的问题,侧面说明AI模型跳过法律直接套用模板的可能。
(二)周延性
评价标准:“周延性”考察的是模型拟定的合同的完整度与严谨性。其中,“结构严谨程度”以合同的条款的分布结构是否符合惯例,便于阅读理解为标准,分为三档:严谨易懂计5分,合同结构基本合理但略有瑕疵计3分,结构混乱难以阅读计0分。“条款完整度”,缺少一个基本条款或题目要求约定的内容该项即为0分。
分析如下:所有受试模型在“结构严谨”性上均为满分,除了借鉴模板的原因外,也与本次测评的提示词已经编排好了相关结构有关。而“条款完整”度两级分化,主要是由于得分为0的模型均未把提示词中要求的担保条款写入合同。这从侧面体现了部分模型对模板的套用不够灵活,对提示词的处理不够细致。
(三) 可操作性
评价标准:“可操作性”作为合同的重要评价指标,可分为交易程序的”逻辑恰当“程度和合同条款的”表述准确“性。“逻辑恰当”以合同拟定的交易程序的可行性分为三档:切实可行计5分,较为简陋有待补充计3分,难以执行计0分。“表述准确”考察合同用语的严谨性,每存在一处用语不当或基本错误扣一分。
分析如下:所有模型的合同可操作性较好,这主要是因为各模型的表述大致相同,变化较小。但“逻辑恰当”一项得分为3的情况偏多,这主要是因为模型对交易模式的描述过于简单,缺少可操作性,反应了模型对实际交易模式的不熟悉。
(四)公平性
评价标准:“公平性”考察AI模型能否识别潜在风险并相应地初步进行权利与义务的划分,让合同最大限度地为双方接受。“权利义务分配”以权利与义务的对等性与交易的契合度为评分标准分为三档:权利义务对等且与交易需求契合计5分,权利与义务明显失衡或不符合交易需求计3分,权利与义务明显失衡且不符合交易需求计0分。“风险责任分配”考察合同识别潜在风险并合理分配责任的能力,分为三档:成功识别风险且合理分配责任计5分,成功识别风险但责任分配不合理计3分,未识别然后风险或表述太过宽泛计0分。
分析如下:(1)在“权利义务分配”上,各模型得分情况较好,但得分为3的模型对权利义务的描述太过简单,如仅仅对提供服务、收付款等进行规定,可能导致潜在的风险。
(2)“风险责任分配”一项,由于8个模型均未按指令提示风险或提示风险过少、过于宽泛,所以得分均为0。通义法睿由于提示的风险较为简单,参考价值不高评为3分。由此可见,大部分模型识别风险的意识或能力较低,这将短时间内生成的合同可能存在需要再次检测的风险。
04
合同审查
各AI模型的合同审查能力排行如下:
综合来看,豆包仍然在该项保持第一,但得分却未达到总分40分的一半。北大法宝由于采用“智能写作”功能,不排除是该部分模型的功能不适配导致的低分。各个模型在合同审查上存在明显短板,特别是对交易模式的法律风险识别能力、对合同结构的审查能力、对适用法律的效力的审查能力上存在严重不足。具体分析详见下文。
(一)交易模式审查
评价标准:该部分测评重点在于AI模型根据合同文本归纳交易模式与识别法律风险的能力。该合同约定的交易模式属于典型的”上下游“、”背靠背“模式,其中由于B公司是C公司的关联公司且B公司具有充足的资金而A公司资金短缺,该交易存在着融资性买卖的可能,即虚假交易的风险。综上,“模式提炼能力”以AI模型能否识别出”背靠背“模式为标准,成功识别计5分,未成功识别计0分。“合法性审查”主要以AI模型能否提示该交易融资性买卖的可能性为标准,成功提示计5分,未成功提示计0分。
分析如下:(1)“模式提炼能力”测评中,仅有6个模型明确指出A、B、C公司之间的上下游交易模式,虽然部分模型在分析“结算方式”时也提及了C公司的存在,但并未在交易模式的分析中点明。这或许与模型分析文本时的先后顺序有关,也侧面体现了模型综合上下文思考能力的不足。“智慧律师”由于审查模式无法输入归纳交易模式的指令,但在结算方式上做出“上下游”交易的专项提醒,本项计2分。
(2)“合法性审查”上,文心一言基于关联公司的提示指出了可能存在利益输送的风险。但是由于大部分模型未识别出上下游的交易关系,所以连锁导致其对融资性买卖的可能性的考虑缺少契机。而成功识别交易模式的模型,多是指出C公司不按约定支付造成的风险,未跳出文本结合提示词的内容进行思考,也体现了模型的实践类经验的不足。
(二)合同结构审查
评价标准:“合同结构审查”主要检测模型对条款完整度与结构逻辑的审查能力。“完整度审查”以模型能否检验出受试合同缺少“违约责任”为标准,成功识别计5分,未成功识别计0分。”逻辑性审查“以模型能否识别”不可抗力“条款的位置发布不当为标准进行评分,成功识别计5分,未成功识别计0分。
分析如下:(1)如表所示,仅有智谱清言提出增加“违约责任”条款的意见。虽然不排除“违约责任”条款不是必要条款的影响,但是作为商事合同,不对违约责任进行约定极易增大潜在风险,体现了模型对交易实践了解不足和风险识别上的弱项。
(2)所有模型都不认为将“不可抗力”条款列在第二条有不妥,体现了模型思考的机械性,有待进一步提升。
(三)合同条款审查
评价标准:“合同条款审查”主要针对AI模型完善条款内容、检验条款适用法律效力的能力。其中,“操作性审查”以模型对“结算方式”的完善程度进行评分,分为5分、3分、0分三档。“法律效力审查”以模型能否识别《中华人民共和国知识产权法》为虚构法律为标准,成功识别计5分,反之计0分。
分析如下:(1)“操作性审查”中,仅有豆包提出既约定具体时间,又约定C公司不支付款项的处理方式的建议。其余获得3分的模型,仅仅建议约定具体的时间。得分为1分的模型建议直接将C公司排除出交易,并非在原基础上加以完善。
(2)而在对适用法律的效力审查上,仅有通义法睿提出应用具体法律(《数据安全法》《个人信息保护法》)的建议,其余模型均为发现《中华人民共和国知识产权法》并非成文法律,更有甚者提到合同符合该虚构法律的规定。这侧面说明了模型审查合同时多数仅仅只是根据文本与提示词进行审查,并未对照数据库中的法律。
(四)文字符号审查
评价标准:“文字符号审查”考察AI模型对法言法语的运用能力和纠正基本错误的能力。“语言润色能力”以模型对“数据合规”用语的三处不当用语的纠正情况为评分依据,每成功纠正一处得两分,满分5分。“纠错能力”模型有关日期、甲乙方署名、标的额大小写的相关错误的纠正情况进行评分,成功纠正一次得两分,满分五分。
分析如下:(1)“语言润色能力”上,没有模型能识别出“假货、冒牌货”的不妥。剩下两处不当用语在有提示的情况下仅仅只有5个模型全部识别出来。AI模型对法言法语的敏感度总体偏低。
(2)“纠错能力”上,仅仅只有豆包和得理法搜发现盖章处甲乙方写反的情况,其余模型多能发现“9月31日”这样的单处错误,但是难以发现金额大小写不对应的问题,这两处问题说明大部分模型综合上下文分析的能力不足。
05
收费与使用体验
评价标准:从商业角度评价大模型主要的标准是性价比,即考虑其收费与使用体验。收费上,只要平均价格低于1元/天即为满分;而“使用体验”以界面简洁程度、输出结果可读性、输入便捷性为评分标准,每有一项不达标扣3分,三项均不达标扣10分。结果如下:
分析如下:(1)从得出的结果分析可知,排名的结果主要受收费高低的影响。这是由于除律皓法管家、律己、通义法睿外,其余模型均支持上传文件进行提问,在审查合同时较为便利,且除得理法搜输出的结果较为杂乱外,其余模型的输出结果排版较好,可读性强。
(2)在使用体验上,律己具有“快速审查”功能,北大法宝也具有专项的合同审核功能。但是实际运行时,律己该功能只有一次免费额度且无法输入提示词提问,故改为应用“法务助手”功能进行提问。而北大法宝的合同审核功能要求开通9900元/年的会员才可使用,故使用“智能写作”功能代替检测。综合合同拟定与和合同审查两项得分,其性价比偏低。
06
总结
综上所述,总体上来说,当前市面上的模型依据庞大的数据库在合同拟定方面较为成熟,但是由于当前模型对合同的分析能力还多停留在文本的逐字理解上,缺少结合上下文、实践经验和法律数据库综合分析的能力,所以模型对合同的审查能力不足。
相较而言,豆包具有很好的合同拟定能力,且在合同审核方面可以做到结合上下文,并对交易风险进行初步提示,可以尝试用于初步审查。而通义法睿、腾讯元宝、律己在合同拟定上的表现较好,可用于辅助参考。至于其他模型的合同审查功能,由于分析能力有限,甚至出现无法审查出合同中“《中华人民共和国知识产权法》”的低级错误,法律人使用时需更为谨慎。
最后,结合上一次测评,本次测试中AI模型更多地表现出了一种通过概率计算而产生的机械的思考模式。这启示了我们法律人只有不断地积累实践经验、认真刨析法律与事实之间的种种关系、提升专业能力,才能在借助AI工具提高法律工作的效率的同时,保质保量完成法律服务工作且避免陷于职业风险当中。
以上内容仅代表本团队律师个人观点,感谢实习生黄毅杨、董新雨对本文作出的贡献!
卢健,北京大成(福州)律师事务所律师/高级合伙人
- End -
2024年,你过得怎么样?12月18日(周三)晚上20:00-21:00,大鱼聊天室首次开启观众连麦互动,欢迎扫码报名。
近期直播,欢迎预约