公告再现乌龙,我们如何将风险防范于未然?

文摘   职场   2024-04-26 13:13   北京  

近日,一家上市公司的公告乌龙事件引起业内人士的广泛热议,在这家公司对外的公告中,指出本次情况“主要原因系公司工作人员直接拷贝了 PDF 文件的文字而未进行仔细检查复核,导致了文中出现多处错别字。”

出错的原因是:

1. 直接复制 PDF 文件文字容易出错;

2. 生成初稿之后没有认真核对导致问题没有及时被发现。

作为一家从创业之初就在研究 PDF 解析技术,并且在金融文档复核领域深耕多年的科技公司,庖丁针对上述两个问题,早已就有成熟的解决方案,并得到诸多行业内客户的认可,协助客户防范了无数个风险点。

详见:首次投行业务质量评价结果公布!获评A类的秘密是……

1

   

问题一:如何解决从 PDF 文件中提取文字的难题?

从 PDF 文档中的提取内容一直是困扰业界几十年的技术难题。

首先,在 Adobe、WPS、福昕等 PDF 阅读器中,选择段落或句子等看似简单的内容提取操作,远远不如在 Word 文档中那么丝滑流畅。

其次,从 PDF 中复制粘贴后的内容除了包含不必要的页脚内容外,还多余了很多回车换行符号,为后续的编辑带来很多麻烦。(详见:《PDF 内容提取:像 Word 一样丝滑流畅》)

PDF转word中常见的问题

若是要深究这里面的技术底层原因:

为了忠实再现原稿的每一个字符、线条、图像等内容,PDF 文档储存的是一条条绘制视觉基本元素(包括字符、线条、色块、图片等)的程序指令。PDF 就是电子版“活字印刷术”,只是简单地把字符“印刷”上去了,计算机无法识别这些字符所构成的句、段落、章节等文档结构信息。

详见:《电子文档全景结构识别漫谈

庖丁科技自研的 PDFlux (https://pdflux.com/是基于“文档全景结构识别”技术,支持用户智能选中词语、句子和段落,支持自动识别和合并跨行、跨栏、跨页的内容,支持对选中内容一键复制和翻译,让PDF内容提取也能像使用 Word 一样丝滑顺畅,简单方便!

立即体验:https://pdflux.com

PDFlux 也支持 web 端、PC 客户端、API 和 SDK 等多种使用方式满足个人和企业的不同需求。

2

   

问题二:如何快速复核出文件中的错误?

文件起草过程中难免出现一些错误,在流程中需要更完善的交叉校对及多轮复核制度,同时也可以借助一个更智能的复核工具来辅助我们完成这项工作。

庖丁 AutoDoc基于深度学习及多模态审核模式,全面审核文档问题,如:审核材料与信披申报文件差异、勾稽关系冲突、财务指标公错误、信息披露质量问题、错别字及标点符号错误,敏感内容等,契合监管合规要求,凭借精益求精的产品实力和服务态度赢得客户的广泛好评。

庖丁AutoDoc文档复核工具使用流程

例如针对同一文件的不一致问题,AutoDoc 可以自动查找并校验图表和文段中的相关财务数据,智能校验数据一致性,并统计所有的冲突情况。系统支持快速定位至冲突位置,并将关键字段高亮展示。

上下文的数据一致性核查

表内数据与文段数据的一致性核查

针对不同文件,AutoDoc 可进行多文档间的交叉复核。用户可同时上传审计报告、发行公告、信用评级报告其他相关文档,AutoDoc 将自动复核披露文档与底稿中的数据和文段,检查文意或重要数据是否一致。

AutoDoc 中的「全面复核」模式,还支持直接追溯到 PDF 底稿中的相关文段或表格。即使底稿为扫描件,存在复杂表格、印章水印、人工标记等常见干扰,都可轻松识别。

一键进行底稿溯源

在文件最终挂网之前,还可以搭配使用「Calliper 文档智能比对系统」,进行上报文件的再次比对,保证前后版本文档一致性,并最终完成交办。

将“释义项”和“释义内容”组合成一个差异提示

3

   

联系我们

庖丁科技现针对上市公司董办成员的工作场景和需求,推出更加符合董办成员的专属解决方案,还有特殊福利。

欢迎联系庖丁的咨询顾问,解锁您的文档复核专属解决方案。

官网:https://paodingai.com/
电话:010-58426539
邮箱:contact@paodingai.com