4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

科技 2024-10-24 20:19 山东

有了AI之后，OCR的应用场景更多了。

但是也发现一个问题，传统OCR的准确性还是不够高。如果在精度要求比较高的场景，传统OCR满足不了要求。

Zerox是应用了AI的能力，让OCR准确度大幅提高，同时也有了更高的灵活性，对各类文档的友好度比较高。

GPT-4o-mini的成本并不是很高，至少是要比人力修改便宜太多太多。

一页文档预估0.01美金以内就做出来了。当然也要需求，如果精度要求不高的情况下，传统OCR会更便宜。

扫码加入AI交流群

获得更多技术支持和交流

（请注明自己的职业）

项目简介

Zerox 使用 GPT-4o-mini 模型实现了一种无需手动训练的文档OCR解决方案。该项目能将 PDF、DOCX 和图像文件转换为 Markdown 格式，方便 AI 的进一步处理。支持批处理和格式保持，特别适用于包含复杂布局、表格和图表的文档。Zerox 提供了 Node 和 Python 两种语言的实现。

DEMO

直接转换成Markdown格式，准确率还是非常高的。如果不想自己部署的话，也有试用链接，可以去试下。

功能逻辑

输入一个文件（PDF、DOCX、图像等）。
将该文件转换成一系列的图像。
将每个图像提交给 GPT 模型，并请求转换为 Markdown 格式。
汇总所有回应，并返回 Markdown 格式的文档。

实际上 Zerox 利用了 GPT-4o-mini 模型的零次学习能力，把输入的文件（如 PDF、DOCX 或图像）转换成图像。然后把这些图像逐一送到 GPT 进行处理，识别内容并以 Markdown 格式输出。

项目链接

https://www.dongaigc.com/p/getomni-ai/zerox?a=zerox

关注「开源AI项目落地」公众号

与AI时代更靠近一点

关注「AGI光年」公众号

获取每日最新资讯

关注「向量光年」公众号

加速全行业向AI转变

开源AI项目落地

分享有价值的开源项目，并且致力于Ai项目的落地。

阿里开源的声音克隆TTS重磅升级，CosyVoice2支持流式输出，更加流畅自然。

4k星星！一个容器化的向量检索RAG系统，支持多模态输入、混合搜索和知识图谱构建。

5.5k星星！开源AI漫画翻译神器，有些漫画永远都不会被翻译，因此这个项目诞生了。

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

11.7k星星！Sora发布了，但别忘了还有个北大开源的Open-Sora，AI视频未来之星一直在更新迭代。

GPT-4o语音交互的开源实现，一个端到端可以直接理解音频的多模态大模型。

超强开源抢先看！新形态数字人，一张照片就能替换掉视频里的说话人，动作表情口型都不变！

这家AI写的营销文案实在是太强了，比自己做的提示词工程省时省力又好用。

好玩！！开源免费AI聊天机器人硬件，0基础手把手教学制作现实AI女友、儿童陪伴玩偶。

一分钟了解OpenAI发布会（1/12）-你会订阅GPT200美金一个月的会员吗？

3.7k星星，开源论文翻译系统，能自动处理公式图表，终于再也不用开翻译会员了。

46.6k星星！最强开源AI集合系统，一键部署全网AI工具都能直接用，UI简直是视觉盛宴！

这个工具厉害了！一分钟能做上百个sku主图，作为设计师的你还在加班吗？

7.3k星星！AI开源视频自动添加字幕和配音，Netflix级准确度。

GPTs进阶版已开源！通过大模型来访问并操作浏览器，网站验证码都能自动填写。

18.5k星星！一个会浏览网页收集信息的开源AI编程助手，还能把复杂指令拆分成多步骤完成。

蚂蚁集团开源首个音频驱动图片半身数字人项目，肢体动作和手型优化太强了！

一个开源的markdown转图片工具，用AI快速输出精品海报，目前AI海报最好的落地路径。

用了酷家乐旗下的这款AI设计软件，设计师再也不用担心加班。

阿里发布GPT-o1的开源实现，用AI解决没有标准答案的复杂问题。

千万粉丝科技自媒体大V何同学，抄袭的原来就是这个开源程序。

港大浙大联合开源交互式AI图片编辑系统，平替PS超贵的AI功能，简单到看一眼就会用。

强大！一个开源多智能体管理框架，灵活处理复杂的多轮对话，真正实现AI全能王。

15.5k星星！开源AI搜索引擎，轻松本地部署替代传统搜索引擎。

这个AI海报设计软件解决了我的刚需，今年圣诞元旦春节做海报都不愁了！

实测！生数科技联合清华大学发布Vidu 1.5，AI视频大模型再现划时代功能，主体一致性世界第一。

微软开源多智能体角色模拟，让AI头脑风暴成为现实，从此你的群聊里就有了社会上各行各业的人。

开源实时语音交互数字人，支持声音克隆和自定义形象，首包延迟低至3秒。

开源人像视频编辑工具，3D高斯的完美应用，功能效果值得落地一个AI视频编辑软件。

这个开源项目落地场景非常多！基于Flux的实时AI绘画，毫秒级生成角色一致性图片。

Claude Artifacts的开源实现，Llama3驱动的AI程序员，瞬间做一个软件还能实时渲染。

开源本地实时语音AI，三分钟看懂下一代AI语音助手的实时多模态交互

5.7k星星！开源文档解析黑马项目，快速解析文档导出所需格式

本周爆火开源！无代码数据爬虫，2分钟训练机器人模拟人类自动爬取web数据

这个专注电商行业的AI设计软件太强了！

我们打造了一个国内信息最全的AI指南网站，让你找到最适合自己的AI开源项目。

字节开源超逼真3D数字人，15分钟训练一个高质量数字人形象。

字节发布音频驱动口型数字人，无需训练，效果完美平替Heygen。

身边的小伙伴都在用，你不会是最后一个知道的吧？

全方位实测！腾讯最新推出会思考的知识库ima，它的AI搜索会产出最优质的内容。

微软开源纯视觉屏幕解析工具，GUI时代真的来了！

4.3k星星，开源版OCR神器，支持复杂文档布局和表格，利用GPT-4o-mini识别准确度超高

本月最强开源发布！Genmo开源AI视频模型，100亿参数，效果秒杀RunWay和Luna！

AI在电商行业的应用典范，美间真的在AI设计上用心了。

复旦团队开源Hallo2，音频驱动图片生成4K分辨率小时级肖像视频，对比第一代提升巨大

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

这个AI工具在双十一发挥大用途，设计师可以抛弃PS了。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉