推荐一个.Net版本的开源OCR项目,方便我们在项目中集成OCR功能。
01
项目简介
tesseract是针对Tesseract-OCR(C++)引擎封装的.NET版本,支持超过100种语言的文本识别,使得.NET开发者能够轻松地利用Tesseract的强大功能,无需深入了解OCR的底层技术。
此项目缺点是,只能识别印刷的文本,针对手写的需要自己训练语言包。
02
使用方法
1、安装依赖Tesseract
Install-Package Tesseract
2、下载语言数据文件
根据需求下载对于的语言数据文件,并在属性设置“复制到输出目录”设置为“始终”,如下示例为中文简体数据文件。
语言文件下载地址:
https://github.com/tesseract-ocr/tessdata_fast
3、示例代码
using System.Diagnostics;
using Tesseract;
var testImagePath = "./photo.bmp";
try
{
using (var engine = new TesseractEngine(@".", "chi_sim", EngineMode.Default))
{
using (var img = Pix.LoadFromFile(testImagePath))
{
using (var page = engine.Process(img))
{
var text = page.GetText();
Console.WriteLine("识别结果:" + text);
}
}
}
}
catch (Exception e)
{
Console.WriteLine(e.ToString());
}
Console.ReadKey(true);
4、识别效果
图片:
识别:
03
项目地址
推荐阅读
回复“888”,免费领取.NetCore视频教程