PaddleOCR 2.9 发布，正式开源文本图像智能分析利器

文摘 2024-10-19 08:59 重庆

点击下方卡片，关注“OpenCV与AI深度学习”

视觉/图像重磅干货，第一时间送达!

OCR 方向的工程师，之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star数量已超过 43k+ ，安装包月下载量超过 40w+ 。

滑动查看更多图片

本次 PaddleOCR 最新发版，带来两大重磅升级，包括：

发布文档场景信息抽取v3（PP-ChatOCRv3-doc）开源版，大幅提升了文本图像版面解析能力，充分发挥文心一言语言理解优势，信息抽取整体效果相比于上一个版本提升 6 %，同时新增 7 个实用的 OCR 基础模型。
支持 OCR 领域低代码全流程开发能力，通过极简的 Python API 一键调用 17个 OCR 相关模型，提供基于统一命令和图形界面两种方式，实现模型简洁高效的使用、组合与定制。支持各种主流硬件如英伟达GPU、昆仑芯、昇腾和寒武纪无缝切换。

PaddleOCR 代码库地址，欢迎大家star：

https://github.com/PaddlePaddle/PaddleOCR

PP-ChatOCRv3-doc 在线体验地址：

https://aistudio.baidu.com/community/app/182491/webUI

下面我们就对上述升级依次进行说明。

文档场景信息抽取v3开源版

PP-ChatOCRv3-doc 的系统流程如下图所示：首先输入预测图片，送入通用版面分析系统，经过版面分析后，预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索，得到与 Query 相关的文本信息，然后送入 Prompt 生成器重新组合成，基于文心大语言模型将海量数据和知识的融合，信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正（可选）、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能，可实现 CPU/GPU 上的高精度实时预测。通过大小模型的融合策略，各部分得以充分展现其优势：小模型以其高精度的图像处理能力脱颖而出，而大模型则展现出卓越的内容理解能力。

在研发 PP-ChatOCRv3-doc 同时，沉淀了 7 个实用的 OCR 基础模型，方便独立使用。具体如下：基于 RT-DETR 的 2 个高精度版面区域检测模型和 1 个基于 PicoDet 的高效率版面区域检测模型、高精度表格结构识别模型 SLANet_Plus 、文本图像矫正模型 UVDoc 、公式识别模型 LatexOCR 、基于 PP-LCNet 的文档图像方向分类模型。

OCR 领域低代码全流程开发

飞桨低代码开发工具 PaddleX，依托于 PaddleOCR 的先进技术，支持了 OCR 领域的低代码全流程开发能力。通过低代码全流程开发，可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗，降低其开发难度，大大加快模型在行业中的应用和推广速度。特色如下：

模型丰富一键调用：将文本图像智能分析、通用 OCR 、通用版面解析、表格识别、公式识别、印章识别涉及的 17 个模型整合为 6 条模型产线，通过极简的 Python API 一键调用，快速体验模型效果。此外，同一套 API ，也支持图像分类、目标检测、图像分割、时序预测等共计 200+ 模型，形成 20+ 单功能模块，方便开发者进行模型组合使用。
提高效率降低门槛：提供基于统一命令和图形界面两种方式，实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外，对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等，进行模型开发时，都可以无缝切换。

下面是 PP-ChatOCRv3-doc 的快速推理程序，5 行代码实现经典模型和大语言模型的交互。

# 安装PaddlePaddle和PaddleX，PP-ChatOCRv3-doc的快速推理程序from paddlex import create_pipelinepredict = create_pipeline( pipeline="PP-ChatOCRv3-doc",                            llm_name="ernie-3.5",                            llm_params = {"api_type":"qianfan","ak":"","sk":""} )  visual_result, visual_info = pipeline.visual_predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf")vector = pipeline.build_vector(visual_info=visual_info)chat_result = pipeline.chat(key_list=["乙方", "手机号"], visual_info=visual_info, vector=vector)

如果您对产线的预训练模型效果满意，可以直接对产线进行高性能推理/服务化部署/端侧部署，如果不满意，您也可以使用产线的二次开发能力，提升效果。完整的产线开发流程文档请参考：

https://paddlepaddle.github.io/PaddleOCR/latest/paddlex/overview.html

此外，我们也在星河社区为开发者提供了基于云端图形化界面零代码的全流程开发工具，下面是 PP-ChatOCRv3-doc 零代码模型产线的开发界面，只需按要求准备好微调模型的数据，就可以快速进行模型迭代和集成部署，详细可以参考教程《零门槛开发产业级AI模型》中相关章节：

https://aistudio.baidu.com/practical/introduce/546656605663301

本文仅做学术分享，如有侵权，请联系删文。
来源丨飞桨PaddlePaddle

—THE END—

觉得有用，麻烦给个赞和在看

http://mp.weixin.qq.com/s?__biz=MzU5NDM1MjU5Mg==&mid=2247509460&idx=1&sn=1794bf49ddf860e6f0b5c5542c8ce8db

OpenCV与AI深度学习

专注计算机视觉、深度学习和人工智能领域干货、应用、行业资讯的分享交流！

最新文章

实战 | OpenCV两种不同方法实现粘连大米分割计数(步骤 + 代码)

如何使用 YOLOv11 分割对象

基于YoloV8的药丸/片剂类型识别

使用OpenCV检测并计算直线角度

基于深度学习的轮胎缺陷检测系统

一文带你了解X-Ray点料机原理与应用

245个目标检测开源项目合集，建议收藏！

使用OpenCV实现球跟踪和落点预测

使用YoloV8检测PCB元件

OpenCV4.8 GPU版本CMake编译详细步骤与CUDA代码演示

轻松入门数字图像处理，搞定OpenCV编程！【文末送书】

YOLOv11在自定义数据集上训练做实例分割

仅用CPU就能跑到1000FPS，这是开源的C++跨平台人脸检测项目

单目实现车辆测距的方法

工业缺陷检测中数据标注需要注意的几个事项

实战 | 粘连物体分割与计数应用--密集粘连药片分割+计数案例

涨点神器！100个即插即用缝合模块【合集下载】

OpenCV实战 | 低对比度缺陷检测应用实例--LCD屏幕脏污检测

顶会新方向！全新多模态大模型统一分割框架

实战 | 基于YOLOv9和OpenCV实现车辆跟踪计数（步骤 + 源码）

实战 | 基于YOLOv8和OpenCV实现车速检测(详细步骤 + 代码)

OpenCV无缝融合应用--指定目标颜色改变(附C++源码)

今年顶会这情况。。。大家还是提前做准备吧！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

完爆YOLO家族？新一代目标检测器又有新突破！

改动一行代码，PyTorch训练三倍提速，这些「高级技术」是关键

最强总结，99个时间序列+时空数据的顶会创新！

Ubuntu24.04 安装 OpenCV4.10.0 和CUDA12.6

基于YoloV11自定义数据集实现车辆事故检测

OpenCV实现保险丝颜色识别（附源码）

我发现了水CV顶会的最强套路，真的不需要脑子

OpenCV快速傅里叶变换(FFT)用于图像和视频流的模糊检测

实战 | 使用姿态估计算法构建简单的健身训练辅助应用程序

计算机视觉开发者都应掌握的10个必备工具

70G 项目文件 100 帧稳定运行？NVIDIA RTX™ 5000 Ada 性能跑分远超上一代！

实战 | OpenCV中更稳更快的找圆方法--EdgeDrawing使用演示（详细步骤 + 代码）

实战 | 用Python和MediaPipe搭建一个嗜睡检测系统 (详细步骤 + 源码)

245个目标检测开源项目合集，建议收藏！

YOLOv8预测参数详解（全面详细、重点突出、大白话阐述小白也能看懂）

又一本开源免费的大模型书来了，449页pdf！

60行代码训练/微调 Segment Anything 2 (SAM 2)

视觉算法岗，Kaggle金牌和CCF A一作哪个更有用？

YOLOv11 C++ TensorRT项目使用

实战 | YOLO11自定义数据集训练实现缺陷检测 (标注+训练+预测保姆级教程)

Python和C++中使用并行计算增强图像处理能力

PaddleOCR 2.9 发布，正式开源文本图像智能分析利器

实战｜OpenCV实时弯道检测(详细步骤+源码)

基于Segformer实现PCB缺陷检测(步骤 + 代码)

导师抢一作已成潜规则？牛马哭了。。。

重磅：PyCharm成为OpenCV官方IDE

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

PaddleOCR 2.9 发布， 正式开源文本图像智能分析利器

本文仅做学术分享，如有侵权，请联系删文。

来源丨飞桨PaddlePaddle

—THE END—

PaddleOCR 2.9 发布，正式开源文本图像智能分析利器