Python 自动化办公教程，10 分钟用 OCR 实现图片文字提取

文摘 2025-01-08 22:59 重庆

大家好，我是浪仔。在日常工作中，经常会遇到需要从图片中提取文字的情况，传统的手动输入不仅耗时耗力，还容易出错。今天带你用 Python 完成一项自动化办公任务——利用 OCR 技术，10 分钟内将图片中的文字提取出来，轻松解决困扰！

什么是 OCR？

OCR（Optical Character Recognition，光学字符识别）技术通过识别图片中的字符，将其转化为可编辑的文本。Python 中的 Tesseract OCR 是一个广泛使用的 OCR 引擎，它可以帮助你从图片、PDF 中提取文字，简化大量繁琐的工作。

今天，我们将使用 Python 的 pytesseract 库来实现这一功能。

准备工作

在开始之前，你需要安装几个依赖：

安装 Tesseract：
Tesseract 是 OCR 引擎的核心部分，首先需要在你的系统中安装它。你可以通过以下命令安装：

Windows：下载并安装 Tesseract。
Linux：使用命令 sudo apt install tesseract-ocr 安装。
Mac：使用 Homebrew 安装 brew install tesseract。

安装 Python 库：

pip install pytesseract pillow

步骤一：导入所需库

首先，我们需要导入 pytesseract 和 PIL（Python Imaging Library）库，这样我们才能加载图片并提取其中的文字。

import pytesseract
from PIL import Image

步骤二：加载图片

使用 PIL 库打开你想提取文字的图片。可以是截图、扫描件、甚至是拍摄的照片。

# 打开图片
img = Image.open('sample_image.png')

步骤三：提取文字

调用 pytesseract.image_to_string() 函数，将图片中的文字提取为文本。

# 使用 pytesseract 提取文字
text = pytesseract.image_to_string(img)

# 打印提取的文字
print(text)

步骤四：优化图片（可选）

OCR 的准确性与图片的清晰度密切相关，因此在提取文字之前，优化图片的质量会提高识别效果。你可以通过以下方式增强图片：

灰度化处理：将图片转为灰度图，减少干扰，突出文字。
```
img = img.convert('L')  # 转为灰度图
```

二值化处理：将图片转为黑白图，进一步提升对比度。

threshold = 128
img = img.point(lambda p: p > threshold and 255)

去噪处理：使用图像处理库（如 OpenCV）去除图片中的噪点，进一步提升识别率。

import cv2
import numpy as np

img = cv2.imread('sample_image.png')
img = cv2.GaussianBlur(img, (5, 5), 0)  # 去噪

步骤五：多语言支持（可选）

如果图片中的文字是中文或其他非英语语言，你可以使用 Tesseract 提供的语言包来进行支持。

# 提取中文
text = pytesseract.image_to_string(img, lang='chi_sim')

提取效果展示

通过上述代码，你可以轻松提取图片中的文字。假设你提取的文本内容是：

你好，欢迎来到 Python 自动化办公教程！
在这个教程中，我们将利用 OCR 技术提取图片中的文字。

小结

通过本文介绍的步骤，你可以用 Python 和 OCR 技术，快速实现图片文字提取。这样，不管是从扫描件、截图还是拍摄的照片中提取文字，工作效率都会大大提高。

在实际应用中，这项技术可以广泛用于处理合同、证件、发票等文字内容，节省大量手动输入的时间，尤其适合办公自动化。赶紧动手试试，让 OCR 帮你提高工作效率！

陌离姐姐

坚持日更！人狠话不多，有事我就说

最新文章

东北好吃的十大美食，吃过一半算你牛

中国受欢迎的十大卤味，看看你吃过几种？

中国十大家常菜，吃过6种算你厉害

中国十大美食排行榜：吃过一半算你牛

这世界十大特色美食，看看你吃过几种？

中国人的十大早餐，看看有你喜欢的没？

中国10大硬菜，吃过一半算你牛！

中国八大菜系，看看你都吃过哪些？

联合国评的十大“世界美食”之都，中国竟占六个！

中国十大地方美食推荐，看看有你家乡的吗？

中国14种超好吃的地方菜，你可能一半都没尝过！

中国十大名小吃，吃过三种算你厉害

中国十大经典美食：从南到北的10道美食

中国十大经典美食，吃过三种算你厉害！

中国十大特色名菜，吃过三种算你厉害

如何用PyAutoGUI实现桌面自动化？保姆级教程来了

如何用PyWebIO，搭建一个漂亮的Python Web应用？超详细保姆级教程

Python新秀Robyn，一个极速的Web框架，教程拿走不谢

如何用Python让你的电脑开口说话？用好pyttsx3，就是如此简单

如何用Python极强GUI神器Flet，1小时搞定漂亮界面？这里有答案！

如何用Python制作桌面应用？小白逆袭指南拿走不谢！

Python自动化操作Windows保姆级教程—— 从入门到精通

Python 自动化办公教程，10 分钟用 OCR 实现图片文字提取

Python爬虫数据写入Excel的5 种方法，非常实用！

Scikit-learn：数据挖掘与分析的终极利器

Pygame：打造游戏和多媒体应用的全能工具

Scrapy：快速高效的 Web 必备爬虫框架

FastAPI：快速构建高性能 API 的超强框架

Statsmodels：数据分析里的统计建模神器！

PyMySQL：轻松搞定 MySQL 的纯 Python 库！

SciPy：让科学计算飞起的 Python 神器！

Loguru：优雅又简单的日志记录神器

Kivy：跨平台开发的强大 Python 库

PyOD：异常检测的强力 Python 工具箱

Keras：Python 开发者的深度学习神器

Django：Python 开发者的 Web 框架神器

NumPy：一个数据分析神器Python 库

Matplotlib：一个数据可视化Python神器

Pyglet：一个超级好用的多媒体开发 Python 库

江苏，某商场承诺“假一赔百”，一男子买10箱茅台，竟然全部是假货，怒告法庭要求索赔1416万，法院最后判决亮了！

太无耻了！河南，一女子新婚19天，被3男1女注射硫酸致死，警方调查后，发现凶手身份不简单

Bokeh：一个数据可视化神器 Python 库

太无耻了！河南，一女子出生3天被亲生父母抛弃，被无儿无女的养父母收养，在她成家后亲生父母要求认亲，她果断拒绝，网友：干得漂亮！

Pyecharts：轻松生成炫酷图表的 Python 可视化神器

湖南，一男子开车被自己儿子追尾，保险以他们是父子关系拒赔，男子：我2辆车买2份保险，凭啥不赔？法院判决让人意外

NumPy：一个数据分析必备的强大 Python 库

上海，一女子在商场丢失16万元的金项链，报警后找到拾得人，对方却说以为是赝品扔了，女子要求赔偿，拾得人：凭什么让我赔？法院判了

北京，一男子要花450万买5台奔驰，4S店女销售大喜！在豪华酒店为其提供24小时私人服务，结果发现被骗，男子竟穷到没钱吃饭！

还有人性吗？四川，光棍收养遗弃女婴24年，养女长大结婚后竟把光棍告上法庭，要求断绝关系，最后判决令人心酸！

重庆，3男3女到火锅店花了605元，付账时4人抢着买单，几人离开后，店员却发现钱没到账，无奈自行垫付605元

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉