实战精要：大语言模型信息抽取面临的5个挑战（5/N）

财富科技 2024-04-26 15:10 安徽

内容来源：鞠躬感谢文因互联提示工程实验室的投稿。

前言

山中方一日，世上已千年。

文因互联浸淫自然语言处理领域十余年，在金融、航空、建筑、医学等落地业务场景中，主要处理三大任务：文本分类、信息抽取、自然语言生成。

这三个任务相互关联，信息抽取可以作为文本分类的前置步骤，而自然语言生成可以用于以更自然的方式呈现分类或抽取的结果。

经过走访，我司工程师一致认为这三大任务中信息抽取最难。如果自然语言处理是人工智能皇冠上的明珠，那信息抽取就是这一“明珠”中最闪亮的部分。

早在 2018 年，文因就曾发表过一篇报告文章“上证信息－文因互联（联合）发布：知识提取在上市公司信息披露中的应用”（以下简称“报告”）。

报告中介绍了一种用于上市公司信息披露自动摘要的方法，并在当年的测试中已经取得理想结果。文章认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。

在 2024 年报季，我们将大语言模型成功落地上市公司信息披露文件信息抽取领域，通过优化算法、增强模型训练，我们成功提高了信息抽取的准确性和处理速度，交付多类临时公告、数十类定期报告数据信息抽取模型。在此过程中，我们遇到并成功应对以下几个关键挑战。

文档解析

前述报告中提到，“对于不同格式的文档，文本的获取是第一步……由于PDF转换过程中所带来的信息丢失、噪音干扰、段落结构破坏、表格结构破坏会严重影响后续分析，于是PDF解析是本课题第一个难点。”

多年过去了，文档解析仍然是非常关键的前置步骤。文档解析的质量直接影响到后续的信息处理和抽取效率，因此这一步骤具有极高的重要性。由于文档格式的多样性和复杂性，文档解析涉及多个子任务，每一个都有其独特的挑战。

这个挑战属于“撞枪口”上了，文档解析恰好是文因互联的长处。

长文本

年度报告、招股说明书长达数百页。大语言模型一般有一个固定的上下文窗口大小，这意味着大模型在任何时刻只能“看到”一段限定长度的文本。对于长文本而言，重要信息可能分散在几个不同的段落或章节中，超出了模型一次能处理的文本范围。

针对长文本的挑战，我们通过实现先进的窗口滑动技术和上下文拼接算法，显著提升了模型处理长文本的能力。这使得模型能够理解和处理分散在长篇文档中的关键信息。

大模型幻觉

利用大语言模型进行结构化信息输出时，“幻觉”这一现象尤为突出。幻觉指的是模型生成的输出与预期格式或内容有显著偏差，例如在要求模型输出 JSON 格式的数据时，输出的结果却不符合 JSON 的结构规范，或者包含了一些无关的词汇，这些都是幻觉的表现。

为了应对模型在生成结构化输出时出现的幻觉现象，我们开发了先进的数据校验和格式化工具，确保输出数据的准确性和符合结构规范。

大模型漂移

我们的大语言模型会定期进行更新和优化，以反映最新的数据和改进的算法。当一个新版本的模型被部署时，它可能会对现有的应用产生影响。目前，信息抽取尚重度依赖于精心设计的提示词，这些提示词有助于引导模型生成预期的输出。

然而，模型更新后，原有的提示词可能不再有效，因为新模型可能对词语的解释或语言模式有所不同。这种失效可能导致输出质量下降，或者产生与预期不符的结果，整个智能体工作流需要再度优化。

我们实现了模型监控机制，以实时跟踪模型性能和适时调整提示词。这一策略确保了即使在模型更新后，信息抽取的准确性和一致性也能得到保持。同时，在模型变“傻”时，能快速回滚到历史版本。

抽取效率

一个字，慢。

输入同样一份年度报告：传统规则抽取，可以实现分钟级抽取上万个信息点；大模型抽取，主流配置，一切顺利的话，半小时内可以完成抽取。

通过并行处理和算法优化，我们显著提高了抽取速度，实现了不亚于传统方法的信息处理能力。这一进步大幅度缩短了处理时间，提高了效率。

解决了上述“小”挑战，真正实现了什么都能抽，抽什么都快；再辅之以提示工程，实现抽什么都准。信息抽取的结果，持续提供给下游进行数据分析、数据核查，在面对多样化的业务需求时更为强大和灵活。

阅

读

推

荐

还在写一堆规则吗？大模型+抽取：智能数据治理“新姿势”

企业专家智能体 | “从数据到知识”，大模型时代的知识库建设

文因互联首席科学家宋劼：Turn On The“文因LED”——企业专家智能体的精益迭代

财报季减压副驾驶 | 大模型时代的智能撰写平台

”

Memect/ 关于我们

文因互联—— AI 重塑知识管理先驱者，提供企业级的大模型应用解决方案。以大模型技术为基座，结合 NLP、提示工程、知识图谱等技术，通过多年行业实践积累，实现对业务文本进行文档解析、智能信息提取、智能内容生成、深度语义理解与关联分析，致力于企业知识的深度挖掘与有序传承，进而助力企业实现大规模的流程自动化和敏捷的市场响应。

自成立以来，已服务过金融、建筑、媒体、医疗、航空、通讯等 20 多个细分行业核心业务场景，落地上百项目，有丰富的智能化实战经验。

作为国家高新技术企业，获得中国证监会首批科技服务商备案，已获得中国信通院、CMMI、ISO 27001信息安全管理体系等权威机构资质认证，以及IDC、CBInsights、毕马威等权威机构金融科技 50 强认证。

”

文因互联

领域大模型实践者

最新文章

入选 | 「文因互联」荣获瞪羚培育企业、雏鹰企业认定

获奖 | 文因互联获第五届长三角金融科技创新与应用全球大赛“2024 年度金融科技·新锐企业奖 ”

官宣 |「图谱智能」获2024年度安徽省“专精特新”企业称号

提示工程实战笔记（二）：比AI工具更重要的是工作流建立

发布！文因互联参编《上海全球资产管理中心建设资产管理大模型应用实践与指南》

AI 这么牛了，为什么还有人工在做枯燥的审核啊？

合作 | 文因互联牵手安徽通服，探索财务票据处理智能平台建设

合作 | 文因互联牵手安徽征信，探索财务数据解析智能平台建设

提示工程实战笔记：银行AIGC业务理解与新工作流搭建

文因互联如何构建航空专家系统

一点点语义要走很长的路——我眼中的「语义网之父」James Hendler

上榜 | 我们的Agent场景落地成果上榜《Al Agent厂商全景地图》

倒计时10天！我在深圳国际人工智能展（GAIE）7C14 展位等你~

行业故事 | 证券公司电脑部的“昨天、今天、明天”

倒计时9天！2024年 FCon 全球金融科技大会即将开幕

用大模型写金融文档？我们是专业的

入选 | 文因互联入选2024未来医疗科技引领者《闪耀100》榜单

对话InfoQ | 文因互联鲍捷：场景融合与ROI考量，金融大模型落地的困境破局

安徽省科协高级研修班一行参访文因互联，交流通用人工智能领域的场景应用

企业专家智能体，从数据到知识（2）| “JIT”——企业内部知识管理的新范式

行业标准 | 文因互联参编中国信通院发布的“金融智能体”相关标准

联合发布 | 人工智能语料主题论坛举行，文因互联参与发布《高质量金融语料技术白皮书》、语料数据产品

就在明天！大咖云集，“语料筑基、智生时代”语料主题论坛欢迎您的莅临

官方认证 | 文因互联入选“北京市通用人工智能产业创新伙伴计划”模型伙伴

【合作】宁波银行续签文因互联 | 构建债券文档 AI 核查系统（二期）

腾讯TVP专访文因互联鲍捷：大模型时代里的「盲目自信」与「人间清醒」

活动邀请 | 世界人工智能大会WAIC“语料筑基，智趋 AI 新质力”专题论坛

【合作】文因互联携手宏利基金，探索智能数字化平台建设与应用创新

文因互联入选 InfoQ【中国技术力量之 AIGC 先锋榜】

数字员工真的能成为“企业智囊团”吗？｜使用说明&实战分享

Agent 标准 | 文因互联参与中国信通院可信 AI 智能体（Agent）标准编制

RAG标准 | 文因互联参与中国信通院可信AI检索增强生成（RAG）标准编制

实战精要：大语言模型信息抽取面临的5个挑战（5/N）

企业专家智能体 | “从数据到知识”，大模型时代的知识库建设

文因互联首席科学家宋劼：Turn On The“文因LED”——企业专家智能体的精益迭代

合作！文因互联携手广发证券，探索大模型时代的智能抽取

还在写一堆规则吗？大模型+抽取：智能数据治理“新姿势”

财报季减压副驾驶 | 大模型时代的智能撰写平台

优秀！携手广发证券“智能投行”课题报告，获评中证协2023年重点课题研究优秀课题报告

合作 | 携手昆明航空，基于业务分析智能体发展探索飞机性能数据管理

大模型创造未来的“亚历山大图书馆” ：一个精细管理的艺术

合作 | 携手中国民航大学，建设大模型时代的航空领域知识图谱

大模型+航空 | LOSA 数字化解决方案

文因互联正式加入四川信创产业联盟

大模型开启智能财务数据管理，用知识管理赋能自动化数据核查！

开工大吉！送上这份大模型时代下的《 AI 规划指南》

荣誉资质 | 文因互联大模型知识管理 AI 平台与华为昇腾 AI 完成兼容性测试认证

高可控，真灵活！银行文档智能撰写场景实战汇报

文因互联入选 “2024 中国大模型先锋案例 TOP30”

大模型+不良资产 | 文因互联携手银河金控探索“不良资产+互联网”场景落地

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉