实战精要:大语言模型信息抽取面临的5个挑战(5/N)

财富   科技   2024-04-26 15:10   安徽  


内容来源:鞠躬感谢文因互联提示工程实验室的投稿。


#0

前言

山中方一日,世上已千年。



文因互联浸淫自然语言处理领域十余年,在金融、航空、建筑、医学等落地业务场景中,主要处理三大任务:文本分类、信息抽取、自然语言生成。


这三个任务相互关联,信息抽取可以作为文本分类的前置步骤,而自然语言生成可以用于以更自然的方式呈现分类或抽取的结果。


经过走访,我司工程师一致认为这三大任务中信息抽取最难。如果自然语言处理是人工智能皇冠上的明珠,那信息抽取就是这一“明珠”中最闪亮的部分。

早在 2018 年,文因就曾发表过一篇报告文章证信息-文因互联(联合)发布:知识提取在上市公司信息披露中的应用”(以下简称“报告”)。


中介绍了一种用于上市公司信息披露自动摘要的方法,并在当年的测试中已经取得理想结果。文章认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。


在 2024 年报季,我们将大语言模型成功落地上市公司信息披露文件信息抽取领域,通过优化算法、增强模型训练,我们成功提高了信息抽取的准确性和处理速度,交付多类临时公告、数十类定期报告数据信息抽取模型。在此过程中,我们遇到并成功应对以下几个关键挑战。

#1

文档解析

前述报告中提到,“对于不同格式的文档,文本的获取是第一步……由于PDF转换过程中所带来的信息丢失、噪音干扰、段落结构破坏、表格结构破坏会严重影响后续分析,于是PDF解析是本课题第一个难点。”


多年过去了,文档解析仍然是非常关键的前置步骤。文档解析的质量直接影响到后续的信息处理和抽取效率,因此这一步骤具有极高的重要性。由于文档格式的多样性和复杂性,文档解析涉及多个子任务,每一个都有其独特的挑战。

这个挑战属于“撞枪口”上了,文档解析恰好是文因互联的长处。






#2

长文本

年度报告、招股说明书长达数百页。大语言模型一般有一个固定的上下文窗口大小,这意味着模型在任何时刻只能“看到”一段限定长度的文本。对于长文本而言,重要信息可能分散在几个不同的段落或章节中,超出了模型一次能处理的文本范围。


针对长文本的挑战,我们通过实现先进的窗口滑动技术和上下文拼接算法,显著提升了模型处理长文本的能力。这使得模型能够理解和处理分散在长篇文档中的关键信息。


#3

大模型幻觉

利用大语言模型进行结构化信息输出时,“幻觉”这一现象尤为突出。幻觉指的是模型生成的输出与预期格式或内容有显著偏差,例如在要求模型输出 JSON 格式的数据时,输出的结果却不符合 JSON 的结构规范,或者包含了一些无关的词汇,这些都是幻觉的表现。


为了应对模型在生成结构化输出时出现的幻觉现象,我们开发了先进的数据校验和格式化工具,确保输出数据的准确性和符合结构规范。


#4

大模型漂移

我们的大语言模型会定期进行更新和优化,以反映最新的数据和改进的算法。当一个新版本的模型被部署时,它可能会对现有的应用产生影响。目前,信息抽取尚重度依赖于精心设计的提示词,这些提示词有助于引导模型生成预期的输出。


然而,模型更新后,原有的提示词可能不再有效,因为新模型可能对词语的解释或语言模式有所不同。这种失效可能导致输出质量下降,或者产生与预期不符的结果,整个智能体工作流需要再度优化。



我们实现了模型监控机制,以实时跟踪模型性能和适时调整提示词。这一策略确保了即使在模型更新后,信息抽取的准确性和一致性也能得到保持。同时,在模型变“傻”时,能快速回滚到历史版本。


#5

抽取效率

一个字,慢。


输入同样一份年度报告:传统规则抽取,可以实现分钟级抽取上万个信息点;大模型抽取,主流配置,一切顺利的话,半小时内可以完成抽取。


通过并行处理和算法优化,我们显著提高了抽取速度,实现了不亚于传统方法的信息处理能力。这一进步大幅度缩短了处理时间,提高了效率。

解决了上述“小”挑战,真正实现了什么都能抽,抽什么都快;再辅之以提示工程,实现抽什么都准。信息抽取的结果,持续提供给下游进行数据分析、数据核查,在面对多样化的业务需求时更为强大和灵活。



还在写一堆规则吗?大模型+抽取:智能数据治理“新姿势”

企业专家智能体 | “从数据到知识”,大模型时代的知识库建设

文因互联首席科学家宋劼:Turn On The“文因LED”——企业专家智能体的精益迭代

财报季减压副驾驶 | 大模型时代的智能撰写平台

Memect/  关于我们

文因互联—— AI 重塑知识管理先驱者,提供企业级的大模型应用解决方案。以大模型技术为基座,结合 NLP、提示工程、知识图谱等技术,通过多年行业实践积累,实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析,致力于企业知识的深度挖掘与有序传承,进而助力企业实现大规模的流程自动化和敏捷的市场响应。


自成立以来,已服务过金融、建筑、媒体、医疗、航空、通讯等 20 多个细分行业核心业务场景,落地上百项目,有丰富的智能化实战经验。


作为国家高新技术企业,获得中国证监会首批科技服务商备案,已获得中国信通院、CMMI、ISO 27001信息安全管理体系等权威机构资质认证,以及IDC、CBInsights、毕马威等权威机构金融科技 50 强认证。


文因互联
领域大模型实践者
 最新文章