大家都知道,这一年多我一直都在 Coze 平台上,做一些智能体,搭建 AI 工作流,研究 AI 的一些落地应用场景。最近我在 Coze 平台上发现了一个超级厉害的 AI 插件,这个插件的功能非常强大,可以帮助我们实现 OCR 的功能,也有助于我们高效打造自己的知识库。(文末领取彩蛋)
pdf 转 markdown
我看到这个插件的时候,第一眼就感觉这个插件可以做一个万能的 OCR 工具,比如:提取 PDF 和图片中的内容,尤其是一些电子合同都可以非常准确地提取,在提取的过程中支持各种表格和公式,准确率很高。
普通的 OCR 工具就只是简单的提取了当中的文字,并不会保留格式的。
但是,这个「pdf 转 markdown」插件则会以 markdown 的格式提取图片中的内容来。提取出来的内容如下:
发票代码:**XXXXXXXX**
![](https://web-api.textin.com/ocr_image/external/4a6e5a0e0d106cf4.jpg)
发票号码:**XXXXXXXX**
开票日期:**XXXXXXXX**
校验码:XXXXXXXX
机器编号:XXXXXXXX
<table border="1" ><tr>
<td colspan="1" rowspan="1">购买方</td>
<td colspan="5" rowspan="1">名 称:XXXXXXXX纳税人识别号:XXXXXXXX地址、 电话:XXXXXXXX开户行及账号:XXXXXXXX</td>
<td colspan="1" rowspan="1">密码区</td>
<td colspan="4" rowspan="1">XXXXXXXX</td>
</tr><tr>
<td colspan="2" rowspan="1">货物或应税劳务、服务名称娃娃机娃娃机娃娃机娃娃机合计</td>
<td colspan="1" rowspan="1">规格型号小型中型大型特大型</td>
<td colspan="1" rowspan="1">单位台台台台</td>
<td colspan="1" rowspan="1">数量1111</td>
<td colspan="3" rowspan="1">单价¥100¥200¥300¥400</td>
<td colspan="1" rowspan="1">金额¥100¥200¥300¥400</td>
<td colspan="1" rowspan="1">税率0000</td>
<td colspan="1" rowspan="1">税额¥0.00¥0.00¥0.00¥0.00</td>
</tr><tr>
<td colspan="2" rowspan="1">价税合计(大写)</td>
<td colspan="9" rowspan="1">壹千元整 (小写)¥1000.00</td>
</tr><tr>
<td colspan="1" rowspan="1">购买方</td>
<td colspan="5" rowspan="1">名 称:XXXXXXXX纳税人识别号:XXXXXXXX地址、 电话:XXXXXXXX开户行及账号:XXXXXXXX</td>
<td colspan="1" rowspan="1">备注</td>
<td colspan="4" rowspan="1">XXXXXXXX</td>
</tr></table>
普通人可能看到这些内容感觉很复杂,对吧?我们放到 MarkDown 软件中预览一下就知道效果了,如下:
这款插件是由合合信息旗下的 TextIn 开发的,识别准确率高达99%!它们在 OCR 领域已经耕耘了 18 年,所以,才这么厉害,使用起来是非常有保证了。
大家可以根据名字「pdf转markdown」去 Coze 平台上搜索一下该插件,接下来,我就会大家详细介绍一下如何利用这个插件打造一个可以提取文件的 ocr 工作流。
搭建 OCR 工作流
因为我们在使用这个插件的时候,需要提供开发者信息,比如:app_id 和 secret_code 。所以,领取好免费试用权益后,打开官网:https://www.textin.com/ ,在这里注册登录。
登录注册进去之后,在开发者中心这里,找到开发者信息,在这里就可以复制 app_id 和 secret_code ,一会我们在搭建工作流使用 pdf转markdown 插件的时候,会使用。
然后登录Coze 平台,我们创建一个 AI 工作流。
在主页当中,找到「工作空间」,点击「资源库」,再选择「工作流」资源,进行创建,填写工作流名称和介绍。确认之后,我们就进入了工作流编辑界面。
点击编辑中心下面的「添加节点」按钮,然后点击「插件」,在插件中心,搜索关键字「pdf转markdown」就可以找到这个插件了,然后点击添加。
这样插件节点就插入进去了。
其实,这个工作流很简单,一共三个节点,开始节点和pdf转markdown插件节点以及结束节点。开始和结束节点是工作流默认必须有的,我们只需要在中间加入一个「pdf转markdown插件」节点即可。
详细介绍一下每个节点以及参数配置信息。
开始节点:这里只需要一个输入参数,就是文档链接,参数名可以自定义,我起的是:fileUrl 。
重点是插件节点,这里需要配置三个参数。如下:
看到了吗?这里需要填写我们一开始的时候,获取的 app_id 和 secret_code 参数,复制填写进去就行。而这里的 url 参数,就是输入节点我们刚才配置的那个参数,也就是我们输入的文档链接。
结束节点,其实就是插件节点的输出,「pdf转markdown插件」节点解析完文档,是输出的参数就是结束节点的输出参数。
到这里工作流就介绍完了。我们可以试验一下结果,点击「试运行」按钮,输入一个文档链接,看看输出结果。
还是刚才的发票图片的链接,直接帮我们解析完成,并输出了。不到 5 秒时间,非常快。
其实,到这里,如果我们把这个工作流发布到智能体当中的话,它就是一个非常高效且好用的智能 OCR 工具。
我可以试着带大家创建一个智能体,比如,名字叫「万能 OCR 工具」,创建步骤如下:
在编排中心,我们主要做两件事,一个是写提示词,就是人设与回复逻辑,换句话讲给这个智能体规定它的任务是什么?然后,我们在中间工作流那里,点击 + 号按钮,添加我们刚才搭建好的工作流。这样,我们就可以上传文件了,它就会自动调用我们刚才的工作流来工作,帮助我们进行 OCR 提取文档内容。
开头的时候,我们验证了它可以提取图片中的内容,这次我们演示一个 PDF 文档的识别提取案例,比如,我上传一个技术相关的 PDF 文档吧,让它帮我们提取内容。文档如下:
是一份我之前搞得阿里巴巴的 Java 开发规范的文档。我们现在让这个 OCR 智能体帮我们提取出来。看效果,如下:
看到了吗?我在智能体当中上传了这份 pdf 文档,它直接就帮我提取出来了。我看了看,效果很好,准确率很高很高,包括格式和公式都很好。而且整个排版也很漂亮,pdf 文档当中的加粗的标题,我们在提取出来的内容当中标题也是该加粗的加粗,基本保留了 pdf 文档中的格式。
到这里一个万能的 OCR 工具我们就打造完成了,以后有什么需要提取文档的工作,我们就可以交给它了。
打造知识库
目前在使用扣子 Coze 搭建企业级知识库的时候,主要有两大难点,一个是 PDF 文件识别的准确率,另一个是图像识别准确率。Coze 官方提供的 OCR 插件能力有限,并不支持影印版 PDF 文件识别,而且在特定场景下,识别的准确率也不高,不能直接输出为类似 markdown 的结构化数据。而在企业内部,通常积累了大量的 PDF 格式文档,这些文档识别准确率不足,严重影响了 RAG 系统的效果。
如果没有这个强大的插件的话,公司需要在数据工程方面投入大量的时间,对企业数据做比较复杂的数据清洗。但是,「pdf转markdown」这个插件解决上面的问题。
我们创建一个知识库,创建方式如下:
给这个知识库起个名字,添加描述,选择类型,知识库完成创建之后,我们就使用刚才创建的万能 OCR 智能体或者工作流提取技术文档内容,放到知识库里。
数据清洗完成之后,这篇文档就放到知识库里了。我们为了便于理解和演示,选择了单个上传的操作方式。
当然了,以上的演示,只是单个文档的演示,如果你有很多文档,我们在搭建工作流和创建知识库的时候,可以选择批量操作,扣子 Coze 平台在工作流当中也提供了批量处理文档操作的工作,在知识库这里也提供了专门的批量操作的 API 。
我们创建一个基于知识库的 Bot 智能体,来验证一下数据和效果。
创建 Bot 智能体的过程跟上面创建万能 OCR 工具智能体的方式一样。我们创建一个「技术专家」的 Bot 智能体,专门用来根据我们打造的知识库来帮助员工快速了解公司内部的技术开发规范。
我们设置好了这个智能体的人设与回复逻辑,也就是 Prompt 之后,点击中间文本「+」按钮,在这里添加我们刚才创建好的知识库。
到这里,就设置好了。我们开始验证,我问这个 Bot 智能体一个问题:开发当中命名风格有哪些?
看看智能体能不能根据我们的技术文档来回答?效果如下:
我验证了一下,回答的内容都是我们刚才创建的知识库当中的内容。
你看,如果你是一个企业,打造了这样的一个知识库,员工是不是效率会大大增加?再也不用手动一个一个地去查文档了,直接问 AI 就行了。
总结
我们现在已经进入了 AI 时代,如果还不能跟上 AI 时代的步伐,我们势必就会落后。而这款 pdf2markdown 插件是一款非常好的帮助个人和企业搭建知识库的工具,它不仅高效而且还非常准确。
对于普通人人来讲,如果你没有搭建知识库的需求,肯定有文档提取的需求。利用 pdf2markdown 搭建一个万能 OCR 智能体,在平时的工作和学习当中,你想识别一些招标文件、合同,甚至论文,都可以用它非常高效的提取当中的内容,毕竟,pdf2markdown 具有各类常见文档的识别解析能力,还能保证格式不乱。
大家可以去体验体验它,欢迎大家扫码添加TextIn官方小助手,更多额度福利、大模型应用技术学习材料等你领取。