Tesseractjs：OCR 前端识别提取图像文本字符支持 100+ 种语言

科技 2024-10-25 17:56 湖北

Tesseract.js 是一个基于 JavaScript 的光学字符识别（OCR）库，它是 Tesseract-OCR 引擎的一个纯前端实现。Tesseract-OCR 是由 Google 开发的一个开源项目，广泛用于将图像中的文本转换成机器编码的文本。

上传图像识别文本字符：

安装使用：

// npm
npm install tesseract.js
// yarn
yarn add tesseract.js
// import
import { createWorker } from 'tesseract.js';
(async () => {
  const worker = await createWorker('eng');
  const ret = await worker.recognize('xxx.png');
  console.log(ret.data.text);
  await worker.terminate();
})();

功能和特性：

纯 JavaScript 实现：Tesseract.js 是基于 Tesseract OCR 引擎的 JavaScript 版本，可以在浏览器和 Node.js 环境中运行，无需依赖任何原生库。

支持超过 100 种语言：Tesseract.js 支持识别 100 多种不同的语言，这使得它成为一个多语言环境下的强大工具。

自动文本方向和脚本检测：它能够自动检测文本的方向和使用的脚本，这减少了对用户输入方向信息的需求。

简单的接口：提供了一个简单的接口来读取段落、单词和字符的边界框，使得开发者可以轻松地集成和使用 OCR 功能。

浏览器和服务器端支持：Tesseract.js 可以在浏览器端运行，也可以在服务器端使用 Node.js 运行，这为不同的应用场景提供了灵活性。

示例代码和 API 文档：官方网站提供了示例代码和 API 文档，帮助开发者快速了解如何使用这个库。

开源免费：Tesseract.js 是一个开源项目，这意味着它可以被自由地使用、修改。

使用场景：

文档数字化：将纸质文档扫描成图像后，使用 Tesseract.js 将图像中的文本转换为可编辑的文本格式。

自动化数据录入：自动识别图片中的表格数据，减少手动输入的工作量。

辅助阅读工具：为视障人士提供辅助，将图像中的文本转换为语音。

社交媒体内容分析：自动识别社交媒体上的图片中包含的文本，用于内容分析检测。

票据识别：自动识别发票、收据等票据上的文本信息，用于财务处理。

《前端资源推荐》公众号收集各种前端组件 UI 框架、JS 插件工具、中后台系统模板、动画库、低代码、可视化资源、开源项目、学习资源、特效源码等，如有其他优秀资源，欢迎发消息投稿，感谢点赞、在看、转发、关注！！！

GitHub：https://github.com/naptha/tesseract.js

官方文档：https://tesseract.projectnaptha.com/

其他推荐：

PagePlug：为开发者而生低代码开发工具

Vue Draggable Plus：支持多种拖拽方式的组件库

600+ CSS Loading 动画加载器

Vuetify：谷歌 Material 风格响应式 UI 组件库

GitHub 56k+ Star AI 项目截图就能生成前端代码

NutUI：京东开源移动端 UI 组件库

前端资源推荐

推荐分享各种前端组件UI、插件工具、中后台系统、低代码、可视化、开源项目、学习资源、特效源码等

最新文章

Reaflow：Web 应用集成可视化流程图框架

Elegant-Admin：Element Plus 中后台系统开发模板

分享三个开发者必备 GitHub 学习资源库

Bifrost UI：阿里跨平台多端适配 UI 组件库

Univer：全栈可视化 office 协同编辑开发框架

MineAdmin：Vue3 前后端分离全栈管理系统

howlerjs：Web 应用 2D/3D 音频控制库

Formily：阿里开源可视化动态表单解决方案

vue-element-plus-admin：Vue3 模板生成功能后台管理系统

Quasar：Vue3 构建多模式应用 UI 组件库

Excalidraw：支持多人协作 AI 辅助图形绘制工具库

DPlayer：开源 H5 弹幕视频播放器

Gin-Vue-Admin：基于 Vue + Go AI 代码生成全栈管理系统

Ant Design X：蚂蚁 AI 组件打造人工智能对话应用

ThorUI：uniapp 移动端 UI 组件库

Textbus：支持在线协作富文本编辑器框架

AntV Editor：AI 驱动可视化图表编辑器

NextUI：模块化高效美观的 UI 组件库

likeadmin：多语言多终端多应用系统框架

Printjs：自定义网页打印功能插件库

ELADMIN：基于 Vue + Spring Boot 全栈管理系统

Fabricjs：交互式 canvas 图形绘制库

Refine：无头架构高度解耦中后台系统开源框架

勾股 OA：开源企业办公管理系统

AS-Editor：H5 低代码页面编辑生成器

Vue Fabric Editor：Vue3 Web 端可视化图片编辑器

V3 Admin Vite：低成本上手中后台管理系统模板

kkFileView：支持数十种文件格式在线预览开源工具库

Arco Design Mobile：字节新开源移动端 UI 组件库

Uppy：支持断点续传模块化的文件上传库

Vue-Bag-Admin：插件式开发中后台管理系统

DataRoom：Vue 可视化大屏开发设计器

Varlet：Vue3 移动桌面双端适配 UI 组件库

Sz-Admin：代码生成器全栈后台管理系统

TinyMCE：支持 Word 导入无限插件扩展富文本编辑器

Headless UI：无样式 UI 组件库

Marsview：开源低代码平台快速搭建自己的管理系统

ContiNew Admin：Vue3 前后端分离全栈管理系统

F2：蚂蚁开源跨平台多端可视化图表

网页版 Windows 11 操作系统界面

Vxe Table：Vue3 支持超大数据量渲染的表格组件库

Arco Design Vue：字节前端开源 UI 组件库

Slash Admin：基于蚂蚁 Ant Design 5 的中后台管理系统

Fluent Editor：华为开源基于 Quill 2.0 的富文本编辑器

NutUI Bingo：助力双十一京东抽奖游戏组件库

shadcn/ui：直接复制就能使用 GitHub 最热门高颜值 UI 组件库

Geeker Admin：基于 Element Plus 的中后台管理系统

美呆了！纯前端技术实现 Web 原神启动

Tesseractjs：OCR 前端识别提取图像文本字符支持 100+ 种语言

Naive UI：高性能的 Vue3 组件库

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

Tesseractjs：OCR 前端识别提取图像文本字符 支持 100+ 种语言

Tesseractjs：OCR 前端识别提取图像文本字符支持 100+ 种语言