4.3k星星,开源版OCR神器,支持复杂文档布局和表格,利用GPT-4o-mini识别准确度超高

科技   2024-10-24 20:19   山东  

有了AI之后,OCR的应用场景更多了。


但是也发现一个问题,传统OCR的准确性还是不够高。如果在精度要求比较高的场景,传统OCR满足不了要求。


Zerox是应用了AI的能力,让OCR准确度大幅提高,同时也有了更高的灵活性,对各类文档的友好度比较高。


GPT-4o-mini的成本并不是很高,至少是要比人力修改便宜太多太多。


一页文档预估0.01美金以内就做出来了。当然也要需求,如果精度要求不高的情况下,传统OCR会更便宜。


扫码加入AI交流群

获得更多技术支持和交流

(请注明自己的职业)


项目简介


Zerox 使用 GPT-4o-mini 模型实现了一种无需手动训练的文档OCR解决方案。该项目能将 PDF、DOCX 和图像文件转换为 Markdown 格式,方便 AI 的进一步处理。支持批处理和格式保持,特别适用于包含复杂布局、表格和图表的文档。Zerox 提供了 Node 和 Python 两种语言的实现。


DEMO


直接转换成Markdown格式,准确率还是非常高的。如果不想自己部署的话,也有试用链接,可以去试下。



功能逻辑


  1. 输入一个文件(PDF、DOCX、图像等)。

  2. 将该文件转换成一系列的图像。

  3. 将每个图像提交给 GPT 模型,并请求转换为 Markdown 格式。

  4. 汇总所有回应,并返回 Markdown 格式的文档。


实际上 Zerox 利用了 GPT-4o-mini 模型的零次学习能力,把输入的文件(如 PDF、DOCX 或图像)转换成图像。然后把这些图像逐一送到 GPT 进行处理,识别内容并以 Markdown 格式输出。


项目链接


https://www.dongaigc.com/p/getomni-ai/zerox?a=zerox


 关注「开源AI项目落地」公众号

与AI时代更靠近一点

 关注「AGI光年」公众号

获取每日最新资讯

 关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地
分享有价值的开源项目,并且致力于Ai项目的落地。
 最新文章