PaddleOCR 2.9 发布，正式开源文本图像智能分析利器

企业 2024-10-22 18:04 北京

OCR 方向的工程师，之前一定听说过 PaddleOCR 这个项目。目前项目累计 Star 数量已超过43k+ ，安装包月下载量超过40w+ 。

滑动查看更多图片

本次 PaddleOCR 最新发版，带来两大重磅升级，包括：

发布文档场景信息抽取 v3（PP-ChatOCRv3-doc）开源版，大幅提升了文本图像版面解析能力，充分发挥文心一言语言理解优势，信息抽取整体效果相比于上一个版本提升6%，同时新增7个实用的 OCR 基础模型。
支持 OCR 领域低代码全流程开发能力，通过极简的 Python API 一键调用17个 OCR 相关模型，提供基于统一命令和图形界面两种方式，实现模型简洁高效的使用、组合与定制。支持各种主流硬件如英伟达 GPU、昆仑芯、昇腾和寒武纪无缝切换。

PaddleOCR 代码库地址，欢迎大家 star：

https://github.com/PaddlePaddle/PaddleOCR

PP-ChatOCRv3-doc 在线体验地址：

https://aistudio.baidu.com/community/app/182491/webUI

下面我们就对上述升级依次进行说明。

文档场景信息抽取 v3开源版

PP-ChatOCRv3-doc 的系统流程如下图所示：首先输入预测图片，送入通用版面分析系统，经过版面分析后，预测图像中的文字信息和表格结构。将版面分析系统预测出的版面类别、文字、表格结构与 Query 之间进行向量检索，得到与 Query 相关的文本信息，然后送入 Prompt 生成器重新组合成，基于文心大语言模型将海量数据和知识的融合，信息抽取准确率高且应用广泛。其中版面分析系统中集成了图像矫正（可选）、版面区域定位、常规文本检测、印章文本检测、文本识别、表格识别等多个功能，可实现 CPU/GPU 上的高精度实时预测。通过大小模型的融合策略，各部分得以充分展现其优势：小模型以其高精度的图像处理能力脱颖而出，而大模型则展现出卓越的内容理解能力。

在研发 PP-ChatOCRv3-doc 同时，沉淀了7个实用的 OCR 基础模型，方便独立使用。具体如下：基于 RT-DETR 的2个高精度版面区域检测模型和1个基于 PicoDet 的高效率版面区域检测模型、高精度表格结构识别模型 SLANet_Plus 、文本图像矫正模型 UVDoc 、公式识别模型 LatexOCR 、基于 PP-LCNet 的文档图像方向分类模型。

OCR 领域低代码全流程开发

飞桨低代码开发工具 PaddleX，依托于 PaddleOCR 的先进技术，支持了 OCR 领域的低代码全流程开发能力。通过低代码全流程开发，可实现简单且高效的模型使用、组合与定制。这将显著减少模型开发的时间消耗，降低其开发难度，大大加快模型在行业中的应用和推广速度。特色如下：

模型丰富一键调用：将文本图像智能分析、通用 OCR 、通用版面解析、表格识别、公式识别、印章识别涉及的17个模型整合为6条模型产线，通过极简的 Python API 一键调用，快速体验模型效果。此外，同一套 API ，也支持图像分类、目标检测、图像分割、时序预测等共计200+模型，形成20+单功能模块，方便开发者进行模型组合使用。
提高效率降低门槛：提供基于统一命令和图形界面两种方式，实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外，对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等，进行模型开发时，都可以无缝切换。

下面是 PP-ChatOCRv3-doc 的快速推理程序，5行代码实现经典模型和大语言模型的交互。

# 安装PaddlePaddle和PaddleX，PP-ChatOCRv3-doc的快速推理程序from paddlex import create_pipelinepredict = create_pipeline( pipeline="PP-ChatOCRv3-doc",                            llm_name="ernie-3.5",                            llm_params = {"api_type":"qianfan","ak":"","sk":""} )  visual_result, visual_info = pipeline.visual_predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/contract.pdf")vector = pipeline.build_vector(visual_info=visual_info)chat_result = pipeline.chat(key_list=["乙方", "手机号"], visual_info=visual_info, vector=vector)

如果您对产线的预训练模型效果满意，可以直接对产线进行高性能推理/服务化部署/端侧部署，如果不满意，您也可以使用产线的二次开发能力，提升效果。完整的产线开发流程文档请参考：

https://paddlepaddle.github.io/PaddleOCR/latest/paddlex/overview.html

此外，我们也在星河社区为开发者提供了基于云端图形化界面零代码的全流程开发工具，下面是 PP-ChatOCRv3-doc 零代码模型产线的开发界面，只需按要求准备好微调模型的数据，就可以快速进行模型迭代和集成部署，详细可以参考教程《零门槛开发产业级 AI 模型》中相关章节：

https://aistudio.baidu.com/practical/introduce/546656605663301

精彩课程预告

为了帮助您迅速且深入地了解 PaddleOCR 最新版本，并熟练掌握全流程操作技巧，百度资深研发工程师将于10月24日（周四）19:00，为您深度解析最新升级亮点以及模型在精度、速度方面的卓越优势。此外，我们还将开设针对 PP-ChatOCRv3-doc 开源版的产业场景实战营，手把手带您体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程。机会难得，立即扫描下方二维码预约吧！

http://mp.weixin.qq.com/s?__biz=MzI5NzUyMzM1Mg==&mid=2247646898&idx=1&sn=ca4d3c066be6c8d36411e6e59720add1

百度AI

百度AI最新产品、产业案例、实时资讯在这里。百度是为数不多进行全栈布局的人工智能公司。从高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，各个层面都有领先业界的关键自研技术，可以实现端到端优化，大幅提升效率。

最新文章

官方带队实测，阶梯式解锁飞桨框架3.0能力新特性，轻松上手！

飞桨AI for Science课程表｜前沿讲座系列课程预告

连续两年获奖！百度文心智能体技术亮相2024世界互联网大会

2024大湾区科学论坛举行，百度吴甜解读大模型如何重塑产业智能引擎

每周一度｜文心iRAG和无代码“秒哒”发布！李彦宏：即将迎来AI应用的群星闪耀时刻；百度王海峰：文心一言用户规模达4.3亿

百度王海峰：文心一言用户规模达4.3亿

打造没有围墙的学校，百度世界2024发布科技馆智能体

大模型如何辅助训练夺金？全红婵、陈芋汐、曹缘百度世界大会现场揭秘

文心iRAG和无代码“秒哒”发布！李彦宏：即将迎来AI应用的群星闪耀时刻

距百度世界2024开幕仅剩1天！大会议程速递

每周一度｜百度智能云×石景山区：大模型产业基地服务平台上线；直击进博会现场，百度吴华分享文心大模型最新应用成果

文心一言AI绘画升级！支持多比例出图，新媒体人有救了

百度联合学界打造国内最新AI for Science系列课程

直击进博会现场，百度吴华分享文心大模型最新应用成果

实训升级、资源加码！飞桨星河社区六周年活动速通攻略来啦！

扬帆启航！你的开源之路从「启航计划」开始！

每周一度｜双第一！百度智能云领跑中国大模型市场；百度智能云×泰兴经济开发区：大模型赋能千亿级化工园区

飞桨模型产线高性能推理、服务化部署、端侧部署能力详解与实战

飞桨首创 FlashMask：加速大模型灵活注意力掩码计算，长序列训练的利器

凌智电子加入飞桨技术伙伴计划，携手PaddleX为视觉模组产品赋能添“智”

在吗？这有30+AI公开课了解一下~

探索多模态大模型数据提质，飞桨PaddleMIX开发大赛盛大启幕

每周一度｜2024年世界科技与发展论坛在京开幕，百度王海峰谈通用人工智能；金融科技赋能智慧养老，大模型产业落地正当时

纯干货！双十一，雇个AI帮我带货

AI for Science赛事启幕，打卡立刻获得周边礼品

1024程序员节，“纯AI战士”申请出战！

2024年世界科技与发展论坛在京开幕百度王海峰谈通用人工智能

PaddleOCR 2.9 发布，正式开源文本图像智能分析利器

体验超赞！飞桨×北航“启航计划”实习圆满结营

每周一度｜李彦宏：泡沫不可避免，但有1%AI企业脱颖而出创造巨大价值；吴晓波对话百度沈抖：打开一张19个月的大模型成绩单

PaddleNLP上新！浪潮信息源2.0全面接入，大模型生态加速进化！

探索多模态大模型数据提质，飞桨PaddleMIX开发大赛盛大启幕

每周一度｜百度与招商银行达成战略合作；以大模型驱动营销新变革，百度营销斩获金投赏5项大奖；飞桨×北航“启航计划”实习圆满结营

数据融合技术，助力OCR垂类模型通用能力显著提升

你的AI逛展搭子来了！假期速来打卡798艺术节

每周一度｜百度与智源研究院达成战略协议，将在大模型等领域展开合作；百度沈抖：产业活力，智能跃迁

飞桨PaddleScience助力汽车空气动力学技术发展，成果亮相领域顶会

全球首个！百度产品通过大模型平台应用系统ISO/IEC 42001认证

双料冠军！文心快码登沙利文、SuperCLUE两大评测报告榜首

百度与智源研究院达成战略协议，将在大模型等领域展开合作

星梦启航：寻找文化传媒领域闪耀应用

大模型拜师学艺！422位专家、学者加入百度“文心导师”计划

每周一度｜飞桨 PaddleScience 助力汽车空气动力学技术发展；百度用商一体·生态协同，引爆新车发布超级效能

宜鼎国际整合PaddleX超轻量实时目标检测模型，共建“AI+智能存储”创新应用

百度飞桨AI教学赋能计划（2024秋季学期）启动申请！

文心一言会员的中秋节仪式感：吃月饼，赏月亮，领月卡！

文心一言AI绘画效果全面升级，这个中秋画点不一样的！

福建少年陈君航：15岁玩转“AI”，成为“野生”计算机天才

百度吴甜：大模型重构产业数字引擎，智能体加速产业智能升级

响应“人工智能+”，百所高校将与飞桨和文心联办AI主题开学季

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉