有了AI之后,OCR的应用场景更多了。
但是也发现一个问题,传统OCR的准确性还是不够高。如果在精度要求比较高的场景,传统OCR满足不了要求。
Zerox是应用了AI的能力,让OCR准确度大幅提高,同时也有了更高的灵活性,对各类文档的友好度比较高。
GPT-4o-mini的成本并不是很高,至少是要比人力修改便宜太多太多。
一页文档预估0.01美金以内就做出来了。当然也要需求,如果精度要求不高的情况下,传统OCR会更便宜。
扫码加入AI交流群
获得更多技术支持和交流
(请注明自己的职业)
项目简介
Zerox 使用 GPT-4o-mini 模型实现了一种无需手动训练的文档OCR解决方案。该项目能将 PDF、DOCX 和图像文件转换为 Markdown 格式,方便 AI 的进一步处理。支持批处理和格式保持,特别适用于包含复杂布局、表格和图表的文档。Zerox 提供了 Node 和 Python 两种语言的实现。
DEMO
直接转换成Markdown格式,准确率还是非常高的。如果不想自己部署的话,也有试用链接,可以去试下。
功能逻辑
输入一个文件(PDF、DOCX、图像等)。
将该文件转换成一系列的图像。
将每个图像提交给 GPT 模型,并请求转换为 Markdown 格式。
汇总所有回应,并返回 Markdown 格式的文档。
实际上 Zerox 利用了 GPT-4o-mini 模型的零次学习能力,把输入的文件(如 PDF、DOCX 或图像)转换成图像。然后把这些图像逐一送到 GPT 进行处理,识别内容并以 Markdown 格式输出。
项目链接
https://www.dongaigc.com/p/getomni-ai/zerox?a=zerox
关注「开源AI项目落地」公众号
与AI时代更靠近一点
关注「AGI光年」公众号
获取每日最新资讯
关注「向量光年」公众号
加速全行业向AI转变