PaddleOCR 2.9 发布, 正式开源文本图像智能分析利器

2024-10-23 08:30   重庆  

点击下方卡片,关注“机器视觉与AI深度学习

视觉/图像重干货,第一时间送达!

OCR 方向的工程师,之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star数量已超过 43k+ ,安装包月下载量超过 40w+ 。

滑动查看更多图片

本次 PaddleOCR 最新发版,带来两大重磅升级,包括:
  • 发布文档场景信息抽取v3(PP-ChatOCRv3-doc)开源版,大幅提升了文本图像版面解析能力,充分发挥文心一言语言理解优势,信息抽取整体效果相比于上一个版本提升 6 %,同时新增 7 个实用的 OCR 基础模型。
  •  支持 OCR 领域低代码全流程开发能力,通过极简的 Python API 一键调用 17个 OCR 相关模型,提供基于统一命令和图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持各种主流硬件如英伟达GPU、昆仑芯、昇腾和寒武纪无缝切换。
PaddleOCR 代码库地址,欢迎大家star:
https://github.com/PaddlePaddle/PaddleOCR
PP-ChatOCRv3-doc 在线体验地址:
https://aistudio.baidu.com/community/app/182491/webUI
下面我们就对上述升级依次进行说明。

文档场景信息抽取v3开源版
PP-ChatOCRv3-doc 的系统流程如下图所示:首先输入预测图片,送入通用 版面分析 系统,经过版面分析后,预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索,得到与 Query 相关的文本信息,然后送入 Prompt 生成器重新组合成,基于文心大语言模型将海量数据和知识的融合,信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正(可选)、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能,可实现 CPU/GPU 上的高精度实时预测。通过大小模型的融合策略,各部分得以充分展现其优势:小模型以其高精度的图像处理能力脱颖而出,而大模型则展现出卓越的内容理解能力。
在研发 PP-ChatOCRv3-doc 同时,沉淀了 7 个实用的 OCR 基础模型,方便独立使用。具体如下:基于 RT-DETR 的 2 个高精度版面区域检测模型和 1 个基于 PicoDet 的高效率版面区域检测模型、高精度表格结构识别模型 SLANet_Plus 、文本图像矫正模型 UVDoc 、公式识别模型 LatexOCR 、基于 PP-LCNet 的文档图像方向分类模型。
OCR 领域低代码全流程开发
飞桨低代码开发工具 PaddleX,依托于 PaddleOCR 的先进技术,支持了 OCR 领域的低代码全流程开发能力。通过低代码全流程开发,可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗,降低其开发难度,大大加快模型在行业中的应用和推广速度。特色如下:
  • 模型丰富一键调用:将文本图像智能分析、通用 OCR 、通用版面解析、表格识别、公式识别、印章识别涉及的 17 个模型整合为 6 条模型产线,通过极简的 Python API 一键调用,快速体验模型效果。此外,同一套 API ,也支持图像分类、目标检测、图像分割、时序预测等共计 200+ 模型,形成 20+ 单功能模块,方便开发者进行模型组合使用。
  • 提高效率降低门槛:提供基于统一命令图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外,对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等,进行模型开发时,都可以无缝切换
下面是 PP-ChatOCRv3-doc 的快速推理程序,5 行代码实现经典模型和大语言模型的交互。
# 安装PaddlePaddle和PaddleX,PP-ChatOCRv3-doc的快速推理程序from paddlex import create_pipelinepredict = create_pipeline( pipeline='PP-ChatOCRv3-doc', llm_name='ernie-3.5', llm_params = {'api_type':'qianfan','ak':'','sk':''} ) visual_result, visual_info = pipeline.visual_predict('https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf')vector = pipeline.build_vector(visual_info=visual_info)chat_result = pipeline.chat(key_list=['乙方''手机号'], visual_info=visual_info, vector=vector)
如果您对产线的预训练模型效果满意,可以直接对产线进行高性能推理/服务化部署/端侧部署,如果不满意,您也可以使用产线的二次开发能力,提升效果。完整的产线开发流程文档请参考:
https://paddlepaddle.github.io/PaddleOCR/latest/paddlex/overview.html
此外,我们也在星河社区为开发者提供了基于云端图形化界面零代码的全流程开发工具,下面是 PP-ChatOCRv3-doc 零代码模型产线的开发界面,只需按要求准备好微调模型的数据,就可以快速进行模型迭代和集成部署,详细可以参考教程《零门槛开发产业级AI模型》中相关章节:
https://aistudio.baidu.com/practical/introduce/546656605663301

本文仅做学术分享,如有侵权,请联系删文。

来源丨飞桨PaddlePaddle

—THE END—

觉得有用,麻烦给个赞和在看 

机器视觉与AI深度学习
专注于机器视觉、AI、深度学习等技术最新资讯、实战内容及应用案例的分享,交流!
 最新文章