近日,一家上市公司的公告乌龙事件引起业内人士的广泛热议,在这家公司对外的公告中,指出本次情况“主要原因系公司工作人员直接拷贝了 PDF 文件的文字而未进行仔细检查复核,导致了文中出现多处错别字。”
出错的原因是:
1. 直接复制 PDF 文件文字容易出错;
2. 生成初稿之后没有认真核对导致问题没有及时被发现。
作为一家从创业之初就在研究 PDF 解析技术,并且在金融文档复核领域深耕多年的科技公司,庖丁针对上述两个问题,早已就有成熟的解决方案,并得到诸多行业内客户的认可,协助客户防范了无数个风险点。
1
从 PDF 文档中的提取内容一直是困扰业界几十年的技术难题。
首先,在 Adobe、WPS、福昕等 PDF 阅读器中,选择段落或句子等看似简单的内容提取操作,远远不如在 Word 文档中那么丝滑流畅。
其次,从 PDF 中复制粘贴后的内容除了包含不必要的页脚内容外,还多余了很多回车换行符号,为后续的编辑带来很多麻烦。(详见:《PDF 内容提取:像 Word 一样丝滑流畅》)
PDF转word中常见的问题
若是要深究这里面的技术底层原因:
为了忠实再现原稿的每一个字符、线条、图像等内容,PDF 文档储存的是一条条绘制视觉基本元素(包括字符、线条、色块、图片等)的程序指令。PDF 就是电子版“活字印刷术”,只是简单地把字符“印刷”上去了,计算机无法识别这些字符所构成的句、段落、章节等文档结构信息。
详见:《电子文档全景结构识别漫谈》
庖丁科技自研的 PDFlux (https://pdflux.com/)是基于“文档全景结构识别”技术,支持用户智能选中词语、句子和段落,支持自动识别和合并跨行、跨栏、跨页的内容,支持对选中内容一键复制和翻译,让PDF内容提取也能像使用 Word 一样丝滑顺畅,简单方便!
立即体验:https://pdflux.com
PDFlux 也支持 web 端、PC 客户端、API 和 SDK 等多种使用方式满足个人和企业的不同需求。
2
文件起草过程中难免出现一些错误,在流程中需要更完善的交叉校对及多轮复核制度,同时也可以借助一个更智能的复核工具来辅助我们完成这项工作。
庖丁 AutoDoc基于深度学习及多模态审核模式,全面审核文档问题,如:审核材料与信披申报文件差异、勾稽关系冲突、财务指标公式错误、信息披露质量问题、错别字及标点符号错误,敏感内容等,契合监管合规要求,凭借精益求精的产品实力和服务态度赢得客户的广泛好评。
庖丁AutoDoc文档复核工具使用流程
例如针对同一文件的不一致问题,AutoDoc 可以自动查找并校验图表和文段中的相关财务数据,智能校验数据一致性,并统计所有的冲突情况。系统支持快速定位至冲突位置,并将关键字段高亮展示。
上下文的数据一致性核查
表内数据与文段数据的一致性核查
针对不同文件,AutoDoc 可进行多文档间的交叉复核。用户可同时上传审计报告、发行公告、信用评级报告其他相关文档,AutoDoc 将自动复核披露文档与底稿中的数据和文段,检查文意或重要数据是否一致。
AutoDoc 中的「全面复核」模式,还支持直接追溯到 PDF 底稿中的相关文段或表格。即使底稿为扫描件,存在复杂表格、印章水印、人工标记等常见干扰,都可轻松识别。
一键进行底稿溯源
在文件最终挂网之前,还可以搭配使用「Calliper 文档智能比对系统」,进行上报文件的再次比对,保证前后版本文档一致性,并最终完成交办。
将“释义项”和“释义内容”组合成一个差异提示
3
庖丁科技现针对上市公司董办成员的工作场景和需求,推出更加符合董办成员的专属解决方案,还有特殊福利。
欢迎联系庖丁的咨询顾问,解锁您的文档复核专属解决方案。
电话:010-58426539
邮箱:contact@paodingai.com