tesseract:一个.Net版本的开源OCR项目

科技   2024-09-29 23:25   福建  

推荐一个.Net版本的开源OCR项目,方便我们在项目中集成OCR功能。

 

01

项目简介

tesseract是针对Tesseract-OCR(C++)引擎封装的.NET版本,支持超过100种语言的文本识别,使得.NET开发者能够轻松地利用Tesseract的强大功能,无需深入了解OCR的底层技术。

此项目缺点是,只能识别印刷的文本,针对手写的需要自己训练语言包。


02

使用方法

1、安装依赖Tesseract

Install-Package Tesseract

2、下载语言数据文件

根据需求下载对于的语言数据文件,并在属性设置“复制到输出目录”设置为“始终”,如下示例为中文简体数据文件。

语言文件下载地址:

https://github.com/tesseract-ocr/tessdata_fast

3、示例代码

using System.Diagnostics;using Tesseract;
var testImagePath = "./photo.bmp";
try{ using (var engine = new TesseractEngine(@".", "chi_sim", EngineMode.Default)) { using (var img = Pix.LoadFromFile(testImagePath)) { using (var page = engine.Process(img)) { var text = page.GetText();
Console.WriteLine("识别结果:" + text); } } }}catch (Exception e){ Console.WriteLine(e.ToString());}Console.ReadKey(true);

4、识别效果

图片:

识别:


03

项目地址

https://github.com/charlesw/tesseract
- End -

推荐阅读

2个零基础入门框架教程!

一个C#开源工具库,集成了超过1000个扩展方法
Sep:一个低内存、高性能的CSV文件读写操作.Net开源库
Boxed:包含多个.Net项目模板,涵盖了ASP.NET Core API、GraphQL等。
Atata:一个基于 Selenium的C#自动化测试Web框架

回复“888”,免费领取.NetCore视频教程

点击下方公众号卡片,关注我

编程乐趣
专注分享.NET和.NET Core编程知识、有趣热门的开源项目。
 最新文章