自2017年创立以来,庖丁科技一直在研究如何来帮助从业人员高效、准确审核金融文档。近期,我们针对债券募集说明书的自动审核技术实现突破,并正在逐步应用到其他类型的投行金融文档审核工作中。
我们基于海量公开年报数据,借助 LLM 技术,对开源的大型语言模型进行了精准微调,显著提升了我们在上市公司年报审核中识别数据错误的能力,极大提高了数据审核的准确性。
欢迎阅读本期内容,进一步了解我们的探索与创新,也真诚期待你的使用反馈:)
1
年报季刚过去不久,半年报的编制工作又已徐徐展开,从汇总数据到核对数据,这些定期报告上都有大量的信息需要董办人员认真对待。
多部门合稿过程中没有遗漏或者差错吧?
各项数据都填写无误吧?
表格中的单位都没问题吧?
前后相似的内容都一致,没有互相矛盾吧?
数据都计算对了吧?
但由于这些信息披露文件中涉及的三会文件、公告文件及底稿资料较多,内容的频繁修改且内容相互之间存在关联性、套用以前年度或者其他公司模板、董办人员变动等各种原因,往往会导致信息披露上的瑕疵。公司的证券部、财务部等相关负责人都战战兢兢、如履薄冰。因为即使是微小的数据误差也可能会吸引监管机构的关注,并需要公司进行自查和整改。
如果人工操作失误在所难免,那是不是可以借助 AI 来智能校验和审核年报呢?
2
庖丁科技从创业伊始就聚焦在文档智能领域,思考如何利用最先进的技术来解决涉及复杂财务数据的金融文档审核工作,让 AI 帮忙处理这些繁琐的数据工具。
早在 2017 年,我们推出了一个债券募集说明书财务自动复核工具,用 AI 找出募集说明书里财务数据可能的错误和冲突,一条一条列出来供用户复核。(详见:AI来了 - 债券募集说明书财务自动复核)
左右滑动了解AutoDoc目前的功能
产品一经推出,就得到了广大金融从业者的认可和支持,在庖丁科技 AutoDoc 的帮助下,用户复核一份债券募集说明书的工作量从几十个小时缩减为 1 个小时,文档复核的准确率也提升至 95%以上,终于将他们从繁琐的数据核对工作中解放出来。
🧙在支持审核的文档类型上,从债券募集说明书开始,AutoDoc 支持审核的文件类型不断增加,逐步扩展到招股说明书、再融资报告、公开转让说明书以及其它一些披露文件。
🧙在审核的文件数量上,AutoDoc 最开始只支持单文档检查,逐步发展出多文档检查,方便用户上传年报、审计报告等文档来和主文档进行交叉比对复核。
🧙在文档审查的功能点上,AutoDoc 从一开始只能检查勾稽关系,之后不断增加审核功能点,支持相似内容比对、单个表格内复核、笔误和错别字检查、公司名/人名白名单检查等等多种审核点。
3
那除了这些金融文档,也有不少上市公司的董办工作人员来问过我们:
“上市公司的年报、半年报能用 AI 来智能审核吗?"
同样是篇幅长、财务数据多,需要小心谨慎地完成披露工作。年报这个文档类型我们也做过不少尝试,之前也推出过几个版本,但在效果上我们内部一直都不太满意,这是一个大致能用的产品,但还并不是一个足够好用的产品。仔细分析上市公司的年报,会发现主要难点在于:
难点一:年报中财务报告的章节标题格式和排版识别难
财务章节部分的章节标题格式、排版较为特殊,部分标题之间的层级关系也不明确,与常规文档的标题格式、排版差异较大,所以不管是用规则或简单的 AI 模型,都难以准确识别。
难点二:年报中的财务数据量大且细致导致复核难度高
债券募集说明书、招股说明书等文档中涉及的财务数据,财务科目通常不会像年报、审计报告中的附注部分,披露的那么详细。所以债券募集说明书、招股说明书等文档中的财务数据复核难度相对没有那么高。
但是年报中附注的财务数据,披露的内容非常详细,同时内容很多,这就导致这部分数据的复杂度很高,难以直接延用债券募集书中、招股说明书中所用到的 AI 模型。
- 在段落部分,对于某个科目,描述了某个条件下或者仅涉及某个子公司的部分,那么此时提到的数据,就需要明确它的具体情况,才能判断是否与其他部分的该科目相关数据进行匹配,那么这类内容的识别,就需要非常深入的语义理解,否则非常容易误识别。
- 在表格部分,部分表格结构复杂,涉及合并单元格、多层表头。那么对于某个数值单元格,就需要准确的理解合并单元格的对应关系、找到每一个层级对应的表头,避免科目名称、口径、单位识别错误
难点三:年报数据维度多进一步增加了复核难度
和招股书、债券募集书相比,年报的内容更加多样。例如相同的科目名称,但是不同的含义,需要结合表格中信息、表格前后信息来辅助判断。
又比如其他应收款小节下的表格,其中一行所列的科目名称是其他应收款,同时另一行还有一个合计行,此时该小节下的段落提到的”其他应收款“应该是指哪一行,则需要综合判断。并且年报内容中名词含义的复杂性进一步提高了借助 AI 的语义理解难度。
难题有很多,但我们从未停下过探索的脚步。
4
大模型的出现,是人工智能技术一次大的变革,也给这个我们想要解决的难题提供了一个新的解题思路。
庖丁科技的工程师们基于自身在财报领域的深厚积淀,并综合运用大语言模型的能力,专门提高了大模型在年报、审计报告上的目录章节识别能力,以及对财务指标理解能力等,让大模型能够「看懂」上市公司年报。
在进行大量尝试和技术研发之后,我们终于针对上市公司年报审核这个场景,对 AutoDoc 审核工具做了一个大的升级,让这个产品可以针对年报审核的更准确,漏报更少,误报更少。
目前已支持对上市公司的年报进行勾稽关系检查、比例计算、财务公式检查、表内计算逻辑复核等功能,用户只需要上传文档,系统就会自动审核文档数据并给出审核结果。
数据隐私问题是每一位用户都会关心的问题,为保护大家的数据安全,庖丁科技自训练的微调模型还为客户提供了私有部署的选项,无需依赖外部的大型LLM平台API,从而有效防止了关键金融数据的外泄风险,也为客户提供了更大的灵活性和控制权。
5
立即体验
如果你对我们的上市公司年报智能审核产品感兴趣,欢迎申请试用。
试用申请请先填写链接:申请试用🪄
当然,除了运用大模型的能力提升了 AutoDoc 审核上市公司定期报告的效果,我们还开展了其他一系列的尝试,欢迎联系庖丁科技的咨询顾问进一步交流,了解大模型是如何解决不同场景下的问题。
庖丁科技亮相2024WAIC:结合场景落地应用,让行业用上大模型
“技术迭代,初心不渝” —— 庖丁科技2024上海闭门会圆满落幕