OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star 数量已超过43k+ ,安装包月下载量超过40w+ 。
滑动查看更多图片
本次 PaddleOCR 最新发版,带来两大重磅升级,包括:
发布文档场景信息抽取 v3(PP-ChatOCRv3-doc)开源版,大幅提升了文本图像版面解析能力,充分发挥文心一言语言理解优势,信息抽取整体效果相比于上一个版本提升6%,同时新增7个实用的 OCR 基础模型。
支持 OCR 领域低代码全流程开发能力,通过极简的 Python API 一键调用17个 OCR 相关模型,提供基于统一命令和图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持各种主流硬件如英伟达 GPU、昆仑芯、昇腾和寒武纪无缝切换。
PaddleOCR 代码库地址,欢迎大家 star:
https://github.com/PaddlePaddle/PaddleOCR
PP-ChatOCRv3-doc 在线体验地址:
https://aistudio.baidu.com/community/app/182491/webUI
下面我们就对上述升级依次进行说明。
01
文档场景信息抽取 v3开源版
PP-ChatOCRv3-doc 的系统流程如下图所示:首先输入预测图片,送入通用 版面分析 系统,经过版面分析后,预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索,得到与 Query 相关的文本信息,然后送入 Prompt 生成器重新组合成,基于文心大语言模型将海量数据和知识的融合,信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正(可选)、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能,可实现 CPU/GPU 上的高精度实时预测。通过大小模型的融合策略,各部分得以充分展现其优势:小模型以其高精度的图像处理能力脱颖而出,而大模型则展现出卓越的内容理解能力。
在研发 PP-ChatOCRv3-doc 同时,沉淀了7个实用的 OCR 基础模型,方便独立使用。具体如下:基于 RT-DETR 的2个高精度版面区域检测模型和1个基于 PicoDet 的高效率版面区域检测模型、高精度表格结构识别模型 SLANet_Plus 、文本图像矫正模型 UVDoc 、公式识别模型 LatexOCR 、基于 PP-LCNet 的文档图像方向分类模型。
02
OCR 领域低代码全流程开发
飞桨低代码开发工具 PaddleX,依托于 PaddleOCR 的先进技术,支持了 OCR 领域的低代码全流程开发能力。通过低代码全流程开发,可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗,降低其开发难度,大大加快模型在行业中的应用和推广速度。特色如下:
模型丰富一键调用:将文本图像智能分析、通用 OCR 、通用版面解析、表格识别、公式识别、印章识别涉及的17个模型整合为6条模型产线,通过极简的 Python API 一键调用,快速体验模型效果。此外,同一套 API ,也支持图像分类、目标检测、图像分割、时序预测等共计200+模型,形成20+单功能模块,方便开发者进行模型组合使用。
提高效率降低门槛:提供基于统一命令和图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外,对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等,进行模型开发时,都可以无缝切换。
下面是 PP-ChatOCRv3-doc 的快速推理程序,5行代码实现经典模型和大语言模型的交互。
# 安装PaddlePaddle和PaddleX,PP-ChatOCRv3-doc的快速推理程序
from paddlex import create_pipeline
predict = create_pipeline( pipeline="PP-ChatOCRv3-doc",
llm_name="ernie-3.5",
llm_params = {"api_type":"qianfan","ak":"","sk":""} )
visual_result, visual_info = pipeline.visual_predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf")
vector = pipeline.build_vector(visual_info=visual_info)
chat_result = pipeline.chat(key_list=["乙方", "手机号"], visual_info=visual_info, vector=vector)
如果您对产线的预训练模型效果满意,可以直接对产线进行高性能推理/服务化部署/端侧部署,如果不满意,您也可以使用产线的二次开发能力,提升效果。完整的产线开发流程文档请参考:
https://paddlepaddle.github.io/PaddleOCR/latest/paddlex/overview.html
此外,我们也在星河社区为开发者提供了基于云端图形化界面零代码的全流程开发工具,下面是 PP-ChatOCRv3-doc 零代码模型产线的开发界面,只需按要求准备好微调模型的数据,就可以快速进行模型迭代和集成部署,详细可以参考教程《零门槛开发产业级 AI 模型》中相关章节:
https://aistudio.baidu.com/practical/introduce/546656605663301
03
精彩课程预告
为了帮助您迅速且深入地了解 PaddleOCR 最新版本,并熟练掌握全流程操作技巧,百度资深研发工程师将于10月24日(周四)19:00,为您深度解析最新升级亮点以及模型在精度、速度方面的卓越优势。此外,我们还将开设针对 PP-ChatOCRv3-doc 开源版的产业场景实战营,手把手带您体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程。机会难得,立即扫描下方二维码预约吧!