内容来源:鞠躬感谢文因互联提示工程实验室的投稿。
#0
前言
山中方一日,世上已千年。
文因互联浸淫自然语言处理领域十余年,在金融、航空、建筑、医学等落地业务场景中,主要处理三大任务:文本分类、信息抽取、自然语言生成。
这三个任务相互关联,信息抽取可以作为文本分类的前置步骤,而自然语言生成可以用于以更自然的方式呈现分类或抽取的结果。
经过走访,我司工程师一致认为这三大任务中信息抽取最难。如果自然语言处理是人工智能皇冠上的明珠,那信息抽取就是这一“明珠”中最闪亮的部分。
早在 2018 年,文因就曾发表过一篇报告文章“上证信息-文因互联(联合)发布:知识提取在上市公司信息披露中的应用”(以下简称“报告”)。
报告中介绍了一种用于上市公司信息披露自动摘要的方法,并在当年的测试中已经取得理想结果。文章认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。
在 2024 年报季,我们将大语言模型成功落地上市公司信息披露文件信息抽取领域,通过优化算法、增强模型训练,我们成功提高了信息抽取的准确性和处理速度,交付多类临时公告、数十类定期报告数据信息抽取模型。在此过程中,我们遇到并成功应对以下几个关键挑战。
#1
文档解析
前述报告中提到,“对于不同格式的文档,文本的获取是第一步……由于PDF转换过程中所带来的信息丢失、噪音干扰、段落结构破坏、表格结构破坏会严重影响后续分析,于是PDF解析是本课题第一个难点。”
多年过去了,文档解析仍然是非常关键的前置步骤。文档解析的质量直接影响到后续的信息处理和抽取效率,因此这一步骤具有极高的重要性。由于文档格式的多样性和复杂性,文档解析涉及多个子任务,每一个都有其独特的挑战。
这个挑战属于“撞枪口”上了,文档解析恰好是文因互联的长处。
#2
长文本
年度报告、招股说明书长达数百页。大语言模型一般有一个固定的上下文窗口大小,这意味着大模型在任何时刻只能“看到”一段限定长度的文本。对于长文本而言,重要信息可能分散在几个不同的段落或章节中,超出了模型一次能处理的文本范围。
针对长文本的挑战,我们通过实现先进的窗口滑动技术和上下文拼接算法,显著提升了模型处理长文本的能力。这使得模型能够理解和处理分散在长篇文档中的关键信息。
#3
大模型幻觉
利用大语言模型进行结构化信息输出时,“幻觉”这一现象尤为突出。幻觉指的是模型生成的输出与预期格式或内容有显著偏差,例如在要求模型输出 JSON 格式的数据时,输出的结果却不符合 JSON 的结构规范,或者包含了一些无关的词汇,这些都是幻觉的表现。
为了应对模型在生成结构化输出时出现的幻觉现象,我们开发了先进的数据校验和格式化工具,确保输出数据的准确性和符合结构规范。
#4
大模型漂移
我们的大语言模型会定期进行更新和优化,以反映最新的数据和改进的算法。当一个新版本的模型被部署时,它可能会对现有的应用产生影响。目前,信息抽取尚重度依赖于精心设计的提示词,这些提示词有助于引导模型生成预期的输出。
然而,模型更新后,原有的提示词可能不再有效,因为新模型可能对词语的解释或语言模式有所不同。这种失效可能导致输出质量下降,或者产生与预期不符的结果,整个智能体工作流需要再度优化。
我们实现了模型监控机制,以实时跟踪模型性能和适时调整提示词。这一策略确保了即使在模型更新后,信息抽取的准确性和一致性也能得到保持。同时,在模型变“傻”时,能快速回滚到历史版本。
#5
抽取效率
一个字,慢。
输入同样一份年度报告:传统规则抽取,可以实现分钟级抽取上万个信息点;大模型抽取,主流配置,一切顺利的话,半小时内可以完成抽取。
通过并行处理和算法优化,我们显著提高了抽取速度,实现了不亚于传统方法的信息处理能力。这一进步大幅度缩短了处理时间,提高了效率。
解决了上述“小”挑战,真正实现了什么都能抽,抽什么都快;再辅之以提示工程,实现抽什么都准。信息抽取的结果,持续提供给下游进行数据分析、数据核查,在面对多样化的业务需求时更为强大和灵活。
阅
读
推
荐
Memect/ 关于我们
文因互联—— AI 重塑知识管理先驱者,提供企业级的大模型应用解决方案。以大模型技术为基座,结合 NLP、提示工程、知识图谱等技术,通过多年行业实践积累,实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析,致力于企业知识的深度挖掘与有序传承,进而助力企业实现大规模的流程自动化和敏捷的市场响应。
自成立以来,已服务过金融、建筑、媒体、医疗、航空、通讯等 20 多个细分行业核心业务场景,落地上百项目,有丰富的智能化实战经验。
作为国家高新技术企业,获得中国证监会首批科技服务商备案,已获得中国信通院、CMMI、ISO 27001信息安全管理体系等权威机构资质认证,以及IDC、CBInsights、毕马威等权威机构金融科技 50 强认证。