10 分钟打造一个智能 OCR 工作流和企业级知识库，这款插件强的离谱

科技 2024-12-18 11:30 山东

大家都知道，这一年多我一直都在 Coze 平台上，做一些智能体，搭建 AI 工作流，研究 AI 的一些落地应用场景。最近我在 Coze 平台上发现了一个超级厉害的 AI 插件，这个插件的功能非常强大，可以帮助我们实现 OCR 的功能，也有助于我们高效打造自己的知识库。（文末领取彩蛋）

pdf 转 markdown

这个插件是：pdf 转 markdown，别看名字叫「pdf转markdown」，其实它可以将我们常见的任何文件都能够一键转 markdown ，比如，将pdf文档、jpg图像等快速转换为markdown格式，同时，支持各类表格、公式解析，实现pdf转md格式、图片img转md格式，帮助大语言模型的数据清洗和文档问答任务。

我看到这个插件的时候，第一眼就感觉这个插件可以做一个万能的 OCR 工具，比如：提取 PDF 和图片中的内容，尤其是一些电子合同都可以非常准确地提取，在提取的过程中支持各种表格和公式，准确率很高。

同时，我们可以将个人或者公司的一些文档用它来进行提取，在 Coze 平台上打造自己的知识库，实现企业的一些智能化办公和问答任务。

到这里，肯定会有人问：市面上这么多 OCR 工具，包括扣子也有一些 OCR 插件，有什么区别呢？我认为它最大的特色和区别就在于它将提取的内容转换成了 markdown 格式，在转换过程中，可以保持一些复杂公式和图表的格式不变。

我举个例子大家就明白了，就以这张发票为例：

普通的 OCR 工具就只是简单的提取了当中的文字，并不会保留格式的。

但是，这个「pdf 转 markdown」插件则会以 markdown 的格式提取图片中的内容来。提取出来的内容如下：

具体文本内容：

发票代码：**XXXXXXXX**

![](https://web-api.textin.com/ocr_image/external/4a6e5a0e0d106cf4.jpg)
发票号码：**XXXXXXXX**
开票日期：**XXXXXXXX**
校验码：XXXXXXXX
机器编号：XXXXXXXX
<table border="1" ><tr><td colspan="1" rowspan="1">购买方</td><td colspan="5" rowspan="1">名 称：XXXXXXXX纳税人识别号：XXXXXXXX地址、 电话：XXXXXXXX开户行及账号：XXXXXXXX</td><td colspan="1" rowspan="1">密码区</td><td colspan="4" rowspan="1">XXXXXXXX</td></tr><tr><td colspan="2" rowspan="1">货物或应税劳务、服务名称娃娃机娃娃机娃娃机娃娃机合计</td><td colspan="1" rowspan="1">规格型号小型中型大型特大型</td><td colspan="1" rowspan="1">单位台台台台</td><td colspan="1" rowspan="1">数量1111</td><td colspan="3" rowspan="1">单价¥100¥200¥300¥400</td><td colspan="1" rowspan="1">金额¥100¥200¥300¥400</td><td colspan="1" rowspan="1">税率0000</td><td colspan="1" rowspan="1">税额¥0.00¥0.00¥0.00¥0.00</td></tr><tr><td colspan="2" rowspan="1">价税合计（大写）</td><td colspan="9" rowspan="1">壹千元整 （小写）¥1000.00</td></tr><tr><td colspan="1" rowspan="1">购买方</td><td colspan="5" rowspan="1">名 称：XXXXXXXX纳税人识别号：XXXXXXXX地址、 电话：XXXXXXXX开户行及账号：XXXXXXXX</td><td colspan="1" rowspan="1">备注</td><td colspan="4" rowspan="1">XXXXXXXX</td></tr></table>

普通人可能看到这些内容感觉很复杂，对吧？我们放到 MarkDown 软件中预览一下就知道效果了，如下：

看到了吗？它会实时按照格式给你展示，这时候，你再去复制自己想要的内容，是不是就不会感觉很乱了？在这种格式下查看、复制或者编辑提取出来的内容，体验会更好，操作会更高效呢？

这款插件是由合合信息旗下的 TextIn 开发的，识别准确率高达99%！它们在 OCR 领域已经耕耘了 18 年，所以，才这么厉害，使用起来是非常有保证了。

大家可以根据名字「pdf转markdown」去 Coze 平台上搜索一下该插件，接下来，我就会大家详细介绍一下如何利用这个插件打造一个可以提取文件的 ocr 工作流。

搭建 OCR 工作流

首先，我们可能需要先去 TextIn 网站上注册一个账号，在进行演示之前，大家可以先扫码领取免费的100页试用额度。

因为我们在使用这个插件的时候，需要提供开发者信息，比如：app_id 和 secret_code 。所以，领取好免费试用权益后，打开官网：https://www.textin.com/ ，在这里注册登录。

登录注册进去之后，在开发者中心这里，找到开发者信息，在这里就可以复制 app_id 和 secret_code ，一会我们在搭建工作流使用 pdf转markdown 插件的时候，会使用。

然后登录Coze 平台，我们创建一个 AI 工作流。

在主页当中，找到「工作空间」，点击「资源库」，再选择「工作流」资源，进行创建，填写工作流名称和介绍。确认之后，我们就进入了工作流编辑界面。

点击编辑中心下面的「添加节点」按钮，然后点击「插件」，在插件中心，搜索关键字「pdf转markdown」就可以找到这个插件了，然后点击添加。

这样插件节点就插入进去了。

其实，这个工作流很简单，一共三个节点，开始节点和pdf转markdown插件节点以及结束节点。开始和结束节点是工作流默认必须有的，我们只需要在中间加入一个「pdf转markdown插件」节点即可。

详细介绍一下每个节点以及参数配置信息。

开始节点：这里只需要一个输入参数，就是文档链接，参数名可以自定义，我起的是：fileUrl 。

重点是插件节点，这里需要配置三个参数。如下：

看到了吗？这里需要填写我们一开始的时候，获取的 app_id 和 secret_code 参数，复制填写进去就行。而这里的 url 参数，就是输入节点我们刚才配置的那个参数，也就是我们输入的文档链接。

结束节点，其实就是插件节点的输出，「pdf转markdown插件」节点解析完文档，是输出的参数就是结束节点的输出参数。

到这里工作流就介绍完了。我们可以试验一下结果，点击「试运行」按钮，输入一个文档链接，看看输出结果。

还是刚才的发票图片的链接，直接帮我们解析完成，并输出了。不到 5 秒时间，非常快。

其实，到这里，如果我们把这个工作流发布到智能体当中的话，它就是一个非常高效且好用的智能 OCR 工具。

我可以试着带大家创建一个智能体，比如，名字叫「万能 OCR 工具」，创建步骤如下：

点击确认按钮，创建成功，进入智能体编排中心。

在编排中心，我们主要做两件事，一个是写提示词，就是人设与回复逻辑，换句话讲给这个智能体规定它的任务是什么？然后，我们在中间工作流那里，点击 + 号按钮，添加我们刚才搭建好的工作流。这样，我们就可以上传文件了，它就会自动调用我们刚才的工作流来工作，帮助我们进行 OCR 提取文档内容。

开头的时候，我们验证了它可以提取图片中的内容，这次我们演示一个 PDF 文档的识别提取案例，比如，我上传一个技术相关的 PDF 文档吧，让它帮我们提取内容。文档如下：

是一份我之前搞得阿里巴巴的 Java 开发规范的文档。我们现在让这个 OCR 智能体帮我们提取出来。看效果，如下：

看到了吗？我在智能体当中上传了这份 pdf 文档，它直接就帮我提取出来了。我看了看，效果很好，准确率很高很高，包括格式和公式都很好。而且整个排版也很漂亮，pdf 文档当中的加粗的标题，我们在提取出来的内容当中标题也是该加粗的加粗，基本保留了 pdf 文档中的格式。

到这里一个万能的 OCR 工具我们就打造完成了，以后有什么需要提取文档的工作，我们就可以交给它了。

打造知识库

如何提取文档当中的内容，我们已经讲完了，接下来我们就可以根据提取的内容来打造一个知识库，然后搭建一个基于知识库的问答系统。

目前在使用扣子 Coze 搭建企业级知识库的时候，主要有两大难点，一个是 PDF 文件识别的准确率，另一个是图像识别准确率。Coze 官方提供的 OCR 插件能力有限，并不支持影印版 PDF 文件识别，而且在特定场景下，识别的准确率也不高，不能直接输出为类似 markdown 的结构化数据。而在企业内部，通常积累了大量的 PDF 格式文档，这些文档识别准确率不足，严重影响了 RAG 系统的效果。

如果没有这个强大的插件的话，公司需要在数据工程方面投入大量的时间，对企业数据做比较复杂的数据清洗。但是，「pdf转markdown」这个插件解决上面的问题。

我们创建一个知识库，创建方式如下：

给这个知识库起个名字，添加描述，选择类型，知识库完成创建之后，我们就使用刚才创建的万能 OCR 智能体或者工作流提取技术文档内容，放到知识库里。

然后，点击下一步，进行数据清洗工作。

数据清洗完成之后，这篇文档就放到知识库里了。我们为了便于理解和演示，选择了单个上传的操作方式。

当然了，以上的演示，只是单个文档的演示，如果你有很多文档，我们在搭建工作流和创建知识库的时候，可以选择批量操作，扣子 Coze 平台在工作流当中也提供了批量处理文档操作的工作，在知识库这里也提供了专门的批量操作的 API 。

我们创建一个基于知识库的 Bot 智能体，来验证一下数据和效果。

创建 Bot 智能体的过程跟上面创建万能 OCR 工具智能体的方式一样。我们创建一个「技术专家」的 Bot 智能体，专门用来根据我们打造的知识库来帮助员工快速了解公司内部的技术开发规范。

我们设置好了这个智能体的人设与回复逻辑，也就是 Prompt 之后，点击中间文本「+」按钮，在这里添加我们刚才创建好的知识库。

到这里，就设置好了。我们开始验证，我问这个 Bot 智能体一个问题：开发当中命名风格有哪些？

看看智能体能不能根据我们的技术文档来回答？效果如下：

我验证了一下，回答的内容都是我们刚才创建的知识库当中的内容。

你看，如果你是一个企业，打造了这样的一个知识库，员工是不是效率会大大增加？再也不用手动一个一个地去查文档了，直接问 AI 就行了。

总结

我们现在已经进入了 AI 时代，如果还不能跟上 AI 时代的步伐，我们势必就会落后。而这款 pdf2markdown 插件是一款非常好的帮助个人和企业搭建知识库的工具，它不仅高效而且还非常准确。

对于普通人人来讲，如果你没有搭建知识库的需求，肯定有文档提取的需求。利用 pdf2markdown 搭建一个万能 OCR 智能体，在平时的工作和学习当中，你想识别一些招标文件、合同，甚至论文，都可以用它非常高效的提取当中的内容，毕竟，pdf2markdown 具有各类常见文档的识别解析能力，还能保证格式不乱。

大家可以去体验体验它，欢迎大家扫码添加TextIn官方小助手，更多额度福利、大模型应用技术学习材料等你领取。

非著名程序员

关注我，一个带领程序员开阔眼界，提升认知，突破圈层，实现个体崛起的公众号。

最新文章

我让 DeepSeek 写了一篇讨美檄文

美国政府要对 DeepSeek 下手了，称其是“偷窃”

太疯狂了！DeepSeek 一夜掀翻美股，导致英伟达血崩

字节跳动牛逼，字节和心脏终于可以双跳动了

30 分钟，无代码，我用 Cursor 开发了一款AI 应用小程序

程序员要学会「自救」，避免沦为 AI 的「替补」！

支付宝出现 P0 级重大事故

2025 开年第一炮，Meta 和微软均宣布裁员

一夜之间，小红书杀疯了

15 分钟，无代码，我用 Cursor 开发了一款微信小程序

程序员如何转型自由职业，我的真实经历分享，这 3 点是关键！

我国程序员数量突破 940 万，评论区被干爆了

被爆：百度面向 CEO 搜索，实测结果大感意外

17岁高中生打造 AI 爆款应用，月入百万美金

30 分钟，无代码，我用 Cursor 开发了一个软件

百度成立 25 周年，李彦宏发全员信

我国程序员数量突破 940 万

雷军梭哈千万，挖角 95 后天才少女

蚂蚁团队重磅推出：这款 AI 浏览器插件让你效率翻倍

年终奖大涨，京东提前发

百度文库做搜索，真是赢麻了

中国 IT 应用市场广大，大厂众多，为何至今都没能诞生一门得到世界广泛认可的高级编程语言？

又爆了，一个年薪 85w+ 的就业新方向！

微软的王炸操作，这是被逼急了

蚂蚁团队自研的「智能开发神器」，这款工具让你秒变 “代码大师”！

10 分钟打造一个智能 OCR 工作流和企业级知识库，这款插件强的离谱

20万奖金向你招手｜这里有一份完整的豆包MarsCode AI编程挑战赛作品提交指南！

说个暴论

ChatGPT 崩了，崩的很彻底！

不写代码，却做了爆款 App，前大厂产品经理，干翻全网

让AI激发创作！首届豆包MarsCode AI编程挑战赛报名开启

字节神器，用 UI 玩转 AI！

字节投毒事件主角获国际大奖，大厂还敢用吗？

1分钟搭建一个代码知识库，腾讯这款工具强的可怕

倒反天罡！程序员听命于产品经理，却比产品经理工资高？

再见，传统软件开发！

微信公众号，3 万阅读，50 块钱

10 年自媒体，我彻底自由了！

800 万索赔！字节为何对投毒实习生下重手？

很严重了，劝程序员极限存钱吧，从11月开始！

互联网大厂衰落最显著的特征是：没有江湖气了

15分钟做完一个小程序，腾讯这个工具有点东西

百度在下一盘大棋

AI 搞钱太牛逼了！

翻车了，知名 UP 主何同学道歉，被指盗用开源项目

资本家剥削靠算账，地主剥削靠情绪：中国职场的怪圈！

裁员大潮，你们今年千万不要轻易离职！

周鸿祎：想要赚大钱，必须得会吹牛

这是直接怼在腾讯脸上一顿输出啊

字节凶猛，杀疯了

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉