12K star！开源OCR工具包，效果不错

文摘科技 2024-10-21 12:33 北京

开源的3D互动数字人聊天，你的二次元AI助理吗点击上方蓝字关注我们

IT 咖啡馆，探索无限可能！

恭喜你发现了这个宝藏，这里你会发现优质的开源项目、IT知识和有趣的内容。

现在的工作中经常会有需要识别图片或PDF中文字的需要，尤其是大模型相关，海量的数据需要OCR处理。

今天我们分享的开源项目，是支持多语言的OCR工具包，可以帮你解决很多日常的需要，它就是：Surya

Surya 是什么

Surya 是一个文档 OCR 工具包，这是一个印度老哥的项目，项目的名字来源于印度教的太阳神，他具有宇宙视野。Surya支持 90 多种语言的 OCR，支持行级文本检测，支持布局分析，可以处理复杂的文档类型，如含有多列文本、图像和表格的文件，适用于自动化文档处理和数据提取场景。其功能如下：

支持 90 多种语言的 OCR，与云服务相比具有优势
任何语言的行级文本检测
布局分析（表格、图像、标题等检测）
阅读顺序检测
表格识别（检测行/列）

性能对比

对于Surya来说，它的特色能力表现在处理包含复杂表格和多语言内容的文档方面。可以考虑通过它来解决满足的场景需要。根据项目给出的数据，在和云服务商的对比中，有着非常好的表现。

OCR

tesseract

Google Cloud Vision

文本行检测

安装 Surya

最简单的方式就是使用 pip来安装 Surya，您需要 Python 3.10+ 和 PyTorch。如果您使用的不是 Mac 或 GPU 机器，则可能需要先安装 CPU 版本的 torch。

pip install surya-ocr

另外项目提供了一个 streamlit 应用程序，可让您以交互方式在图像或 PDF 文件上使用 Surya。使用以下命令运行它：

pip install streamlitsurya_gui

第一次运行 surya 时，模型权重将自动下载。有一些权重是会需要从huggingface下载，所以需要提前配置好网络。

使用Surya

如果是基本使用，可以直接通过刚刚安装的streamlit程序来使用，安装完成后会在8501端口运行一个服务器。

选择语言

首先可以选择希望使用的语言，选择语言可以提升OCR的准确性。

选择一个希望执行OCR的文件。

左侧可以选择的识别动作包括：

文本检测
OCR
布局分析
阅读顺序
表格识别

OCR

以OCR为例，识别速度还不错，我这个基本的文档识别准确度也可以。

测试了一下英文论文，带公式的，识别的效果也还不错。

代码使用

也可以在自己的代码中使用Surya，以下是一段参考的代码示例

from PIL import Imagefrom surya.ocr import run_ocrfrom surya.model.detection.model import load_model as load_det_model, load_processor as load_det_processorfrom surya.model.recognition.model import load_model as load_rec_modelfrom surya.model.recognition.processor import load_processor as load_rec_processor
image = Image.open(IMAGE_PATH)langs = ["en"] # Replace with your languages - optional but recommendeddet_processor, det_model = load_det_processor(), load_det_model()rec_model, rec_processor = load_rec_model(), load_rec_processor()
predictions = run_ocr([image], [langs], det_model, det_processor, rec_model, rec_processor)

表格识别

总结

整体而言，Surya是一个非常不错OCR工具，识别的速度和准确性都很不错，上手也是比较容易的，所以如果你想自己搞一个OCR的工具，那这个是不错的选择。需要注意的是，Surya的开源协议相对复杂，个人和研究不受限制，但商业使用会受到一些限制，需要自己仔细查看一下。

项目信息

项目名称：Surya
GitHub 链接：https://github.com/VikParuchuri/surya
Star 数：12K

往期推荐

24K star！开源的量化交易平台开发框架

掌握深度学习，这5个开源项目值得收藏

「Github一周热点45期」OCR工具包、文件分享平台、开源调查问卷、编程AI助手和面部识别框架

识别二维码关注我们

微信号- it-coffee

B站 - IT-咖啡馆

头条号- IT咖啡馆

http://mp.weixin.qq.com/s?__biz=MzI1NzEzOTAzOA==&mid=2247486940&idx=1&sn=a7b305f1b649f1909fb7f89857e11bd0

IT咖啡馆

开源项目、IT技能和有趣的事情

2K star！语音转文本模型，比Whisper快，更适合小设备

16K star！开源工作流编排，让计划更简单

16K star！实时文档协作编辑器，远程工作好帮手

「Github一周热点47期」llama官方配套资料、低代码框架、网页变化监控工具、工作流编排平台和我的世界AI工具

3K star！微软开源的AI屏幕解析工具，基于纯视觉识别UI

31K Star！快速构建应用，几分钟就能开发网站的低代码工具

「Github一周热点46期」大模型OCR、IPTV直播源、工作流程自动化、下一代信息浏览器和下载金融数据工具

12K star！开源OCR工具包，效果不错

「Github一周热点45期」OCR工具包、文件分享平台、开源调查问卷、编程AI助手和面部识别框架

「Github一周热点44期」多语言算法库、远程工作指南、可扩展区块链、一体化项目管理平台和数学动画引擎

掌握深度学习，这5个开源项目值得收藏

36K star！轻量化的docker终端可视化工具

24K star！开源的量化交易平台开发框架

「Github一周热点43期」面向LLM的爬虫、网页一键变APP、开源金融分析工具等

开源的3D互动数字人聊天，你的二次元AI助理

8K star X2！anthropics 开源的AI学习资源，27份指南+5个课程

「Github一周热点42期」计算机视觉工具、AirDrop替代、 llama开发框架等5个项目

8K star！互动式学习，0基础入门CUDA

5k star！可视化的定时任务管理系统

4k star！OCR进入2.0时代，端到端的开源模型

20K star！用React编程做视频，程序员爱了

「Github一周热点41期」eBPF的捕获工具、本地版AWS、Devops脚本等5个项目

17K star！备用机必备神器，开源短信转发工具

9K star！Java开发的网盘应用，多种存储支持

8K star！开源的小巧工具，帮你实现证件照自由

28K star！开源的自建PaaS平台，拥有自己的Heroku

「Github一周热点39期」开源RAG UI、AI证件照、开源免费ERP等5个项目

8K star！开源行为检测引擎，更适合云原生环境

16K star！网站内容变化实时监控，快速掌握一手信息

「Github一周热点38期」黑客工具箱、Notion平替、AI换脸等5个项目

4K star！实现页面拖拽，只需几行代码

8K star！抖音开源力作，全面的前端UI库

6K star！平替Lodash，体积缩小97%，轻巧的JS实用库

「Github一周热点37期」开源身份认证、代理客户端、Transformer可视化等5个项目

56K star！Nginx的轻量替代者，自动HTTPS的web服务器

GraphRAG门槛高，试试更小、更快、更干净的 GraphRAG

浏览器书签秒变导航站，有手就行

7K star！滴滴开源，灵活的流程图可视化框架

25K star！实时视频换脸，不要轻易相信你看到的

7K star！精致小巧的开源Redis可视化客户端

35K star！生产环境的Java诊断工具，阿里开源神器

54K star!网站状态监控轻松搞定，小巧且强大

37K star！实时后端服务，一个文件实现

5K Star!这款开源神器让路由追踪直观可视

3K star！LLM读不懂？那用可视化的方式来学吧

为AI开发者而生，agent开发专用的IDE

16K star！强大而易用的网络流量监控和分析工具

15K star！高效PDF转markdown，AI实用工具

一周2K star！Netflix 开源的工作流编排器，不容错过

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉