数据融合技术,助力OCR垂类模型通用能力显著提升

企业   2024-10-08 18:06   北京  


在探讨生活中最为普及且极具便民价值的 AI 应用技术时,OCR(光学字符识别)技术无疑占据了举足轻重的地位。步入大模型时代,OCR 技术的潜力被进一步挖掘,其在自动化办公、金融风控、医疗健康、法律行业及教育领域等多元化场景中展现出广泛而深入的应用。然而,面对复杂多变的实际应用场景,单纯依赖通用 OCR 模型往往力不从心,这促使了针对特定垂类场景进行模型训练的必要性。但此过程中,一个普遍存在的挑战是,垂类模型的训练可能导致其在通用文本识别能力上大大减弱。


为了有效应对这一难题,飞桨低代码开发工具 PaddleX 发布的最新的文本图像智能分析模型产线 ——文档场景信息抽取 v3(PP-ChatOCRv3),提供了基于数据融合技术,OCR 模型二次开发功能。该技术巧妙地平衡了垂类模型的专业性与通用文本识别的准确性,显著提升了 OCR 垂类模型在处理多样化场景时的综合能力。


以下,我们以手写文字识别为例,深入剖析这一能力的实际应用效果。在政务合同处理中,手写文字识别至关重要但具挑战性,因个人书写差异大。为提升识别能力,模型需针对手写体微调文本识别模型,但这常削弱其通用识别能力。


以下是使用手写文字微调识别模型前后的对比,第一张图是待预测图,第二张图是微调前通用模型效果,可以看到手写文字识别不够准确(红色框),第三张图是微调后的垂类模型效果,可以看到手写文字的能力大幅上升(绿色框),但是通用能力大幅下降(红色框),导致很多场景中无法使用。第四张图是采用数据融合技术,微调后的垂类模型效果,可以看到手写文字的能力大幅提升(绿色框),同时通用能力没有明显下降(非手写文字没有识别错误)。


原图

微调前的效果

微调后的效果

采用数据融合技术的效果

右滑查看更多图片


备注:以上仅以手写举例,当然也包含其他垂类场景,如艺术字文本、小语种文本等。


PP-ChatOCRv3在线体验地址:

https://aistudio.baidu.com/community/app/182491/webUI


PP-ChatOCRv3模型产线地址:

https://aistudio.baidu.com/pipeline/mine


 01 

 数据融合技术快速实践 


星河零代码产线是 PaddleX 在飞桨星河社区 AI Studio 的云端形式,仅通过简单几步即可体验文档场景信息抽取 v3的 OCR 识别数据融合微调能力。


右滑查看更多图片


 02 

 方案简介 


下图是 PP-ChatOCRv3中数据融合技术流程图。该技术融入了百万级高质量通用 OCR 文本识别数据,能够自动且无缝地将一定比例的通用场景文本识别数据集融入垂类训练数据中。用户在进行文本识别模型训练时,仅需通过直观的参数配置界面,轻松设定数据融合比例,即可无缝接入官方预置的大规模通用文本识别数据,操作简便快捷。通过数据融合微调,实现了模型训练效果的双重提升:既增强了模型在特定垂类场景下的识别精准度,又保持了其广泛的适用性,即优秀的通用场景文本识别能力,从而达成了模型微调在精度上的均衡优化目标。通过控制融合深度的参数,可以间接控制模型更倾向于垂类场景还是通用场景的识别能力。


数据融合流程图

融合精度效果

右滑查看更多图片


 03 

 精彩课程预告 


为了帮助您迅速且深入地了解文本图像智能分析 PP-ChatOCRv3模型产线中数据融合技术,并熟练掌握实际操作技巧,百度工程师将在10月10日(周四)19:00,为您详细解读该技术。同时,也会介绍基于该技术训练的模型,如何结合提示词工程,进一步提升复杂文档场景信息抽取能力。此外,我们还将开设针对 PP-ChatOCRv3任务中数据融合功能和提示词工程零代码开发产业场景实战营,指导您一步一步体验从数据准备、数据校验、模型训练、性能优化到模型部署的完整开发流程,报名参与实战营的开发者可享受 PP-ChatOCRv3零代码产线训练评估算力限时全免费!机会难得,立即扫描下方二维码预约吧!




百度AI
百度AI最新产品、产业案例、实时资讯在这里。 百度是为数不多进行全栈布局的人工智能公司。从高端芯片昆仑芯,到飞桨深度学习框架,再到文心预训练大模型,各个层面都有领先业界的关键自研技术,可以实现端到端优化,大幅提升效率。
 最新文章