【视频专栏】叠层模型驱动的书法文字识别方法研究

文摘   科技   2024-11-07 17:01   北京  

点击上方蓝字关注我们


麻斯亮, 许勇. 叠层模型驱动的书法文字识别方法研究. 自动化学报, 2024, 50(5): 947−957

1

摘要

       基于二维图像的书法文字识别是指利用计算机视觉技术对书法文字单字图像进行识别, 在古籍研究和文化传播中具有重要应用. 目前书法文字识别技术已经取得了相当不错的进展, 但依旧面临很多挑战, 比如复杂多变的字形可能导致的识别误差, 汉字本身又存在较多形近字, 且汉字字符类别数与其他语言文字相比更多, 书法文字图像普遍存在类内差距大、类间差距小的问题. 为解决这些问题, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 通过使用数据预处理、节点分离策略和叠层模型对现有单一分类模型进行改进, 按照字体类别对同一类别不同字体风格的文字进行二次划分; 针对类间差距小的问题, 根据书法文字训练集图像识别置信度对形近字进行子集划分, 针对子集进行嵌套模型增强训练, 在测试阶段利用叠层模型对形近字进行二次识别, 提升形近字的识别准确率. 为了验证该方法的鲁棒性, 在自主生成的SCUT_Calligraphy数据集和CASIA-HWDB 1.1, CASIA-AHCDB公开数据集上进行训练和测试, 实验结果表明该方法在上述数据集的识别准确率均有较大幅度提升, 在CASIA-HWDB 1.1、CASIA-AHCDB和自建数据集SCUT_Calligraphy上测试准确率分别达到96.33%、99.51%和99.90%, 证明了该方法的有效性.


2

引言

      文字识别是计算机视觉领域的一个重要问题, 在票证识别[1]、车牌识别[2]、智慧办公等领域都有广泛应用. 书法文字识别是一种特殊场景下的文字识别任务, 能够为古籍研究、文化传播提供极大的帮助. 由于书法文字包含大量繁体字, 字形复杂多变(如图1所示, 包括篆书体(包含大篆、小篆)、隶书体(包含古隶、今隶)、楷书体(包含魏碑、正楷)、行书体(包含行楷、行草)、草书体(包含章草、小草、大草、标准草书)等), 且汉字类别数与其他大多数语言文字相比更多, 汉字本身又存在较多形近字, 导致书法文字识别任务更加复杂. 为了在相同的训练数据上达到更优的识别性能, 本文深入分析了书法文字图像的特点, 结合人类识别物体的生物学特性, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 同时使用数据预处理和节点分离策略辅助提升书法文字识别准确率. 


图 1  中国书法作品样例

Fig. 1  Samples of Chinese calligraphy works


叠层模型驱动的书法文字识别方法主要从两方面考虑设计: 一是数据预处理, 对训练数据集进行标准化、二值化和降噪等预处理, 提高训练数据的对比度和清晰度, 纠正错误数据, 以确保模型对数据的理解正确; 二是模型优化, 由于ResNet-50[3]在图像分类任务中精度和运算效率与其他框架相比有明显优势, 本文选择ResNet-50作为基线模型搭建叠层神经网络模型, 使用注意力机制和更有效的多分类交叉熵损失函数, 调整模型超参数(如学习率、批量大小等)以优化模型性能, 提高模型的精度, 通过旋转、缩放、梯形变换等数据增强方法提升模型的泛化能力. 通过调整初始化模型权重和偏差来提高模型训练的效率和精度, 使模型在相同的训练数据上获得更优的识别性能. 

在过去的数十年中, 深度学习技术在汉字识别任务中取得了较好的效果[4]. 然而, 在大规模书法文字识别任务中, 通常会遇到类别不平衡现象, 其主要原因如下: 1)由于字体风格变化较大, 不同书法家书写同一个字, 字形差异可能非常大, 如图2(a)“足”字多形书法, 导致“足”字类内相似度差距大, 在识别中经常错误识别为“是之亡邑乏丫”等字. 2)由于汉字本身存在较多形近字, 如图2(b)不同类别的书法文字“已己巳巴王壬”字形相似, 导致图像类间相似度差距小. 由于书法文字图像普遍存在类间差距小的问题, 在识别中经常被错误识别. 为解决上述问题, 本文提出叠层模型驱动的书法文字识别方法, 与现有基于深度学习的文字识别方法相比在数据质量、模型设计上有所改进, 不再依靠单模型的优化来提升文字识别性能, 而是通过叠层模型来提取易错形近字的细粒度特征, 进而提升书法文字识别准确率. 


图 2  书法文字中同一类字不同字形及形近字示例

Fig. 2  Examples of different glyphs and close shapes of the same type of characters in calligraphy text


本文的主要贡献和创新点包括以下两方面: 一是基于文本标签及不同书法字体生成了包含3767类常用汉字的SCUT_Calligraphy书法文字数据集, 其中训练集和测试集规模分别为251664和26106. SCUT_Calligraphy数据集与现有数据集相比图像质量更高, 包含更多类型的字体和样式, 提供更准确的标注, 覆盖更多汉字类别. 二是提出了叠层模型驱动的书法文字识别方法, 对训练数据中同一类字中字形差异较大的图像数据进行节点分离, 在测试阶段进行节点合并, 有效解决了书法作品中一字多形导致的识别错误; 对形近字子集使用叠层模型进一步提取细粒度特征, 提升小类别范围内的识别准确率, 进而提高大类别场景的书法文字识别准确率, 并能够拓展应用到其他大类别数分类任务中. 综上所述, 本文从数据获取和模型设计的角度重新思考书法文字识别问题, 通过提升训练数据质量和改进模型构造方式来提升书法文字识别性能, 不再局限于单模型的性能优化, 充分提升了书法文字识别性能. 

本文第1节将介绍书法文字识别方法和数据集的相关工作和研究现状. 第2节介绍本文构建的叠层模型驱动的书法文字识别方法. 第3节介绍实验设置与结果分析, 通过对比实验验证了本文所述方法的有效性. 最后总结全文.


3

正文框架

1. 相关工作

  1.1 书法文字识别方法

  1.2 书法文字识别数据集

2. 方法

  2.1 方法动机

  2.2 数据生成

  2.3 数据预处理

  2.4 叠层模型驱动的书法文字识别方法

  2.5 基于节点分离的训练策略

  2.6 基于细粒度特征提取的书法文字识别子模型

3. 实验

  3.1 实验设置

  3.2 实验数据集

  3.3 评价指标

  3.4 实验结果与分析

4. 结论


部分文献


[1] Zhang H N, Dong B, Zheng Q H, Feng B Q, Xu B, Wu H Y. All-content text recognition method for financial ticket images. Multimedia Tools and Applications, 2022, 81(20): 28327−28346 doi: 10.1007/s11042-022-12741-2


[2] Kabiraj A, Pal D, Ganguly D, Chatterjee K, Roy S. Number plate recognition from enhanced super-resolution using generative adversarial network. Multimedia Tools and Applications, 2023, 82(9): 13837−13853 doi: 10.1007/s11042-022-14018-0


[3] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770–778


[4] Bhunia A K, Ghose S, Kumar A, Chowdhury P N, Sain A, Song Y Z. MetaHTR: Towards writer-adaptive handwritten text recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 15825–15834


作者简介



麻斯亮,华南理工大学计算机科学与工程学院博士研究生. 主要研究方向为机器学习, 文字图像处理.

许勇,华南理工大学计算机科学与工程学院教授. 主要研究方向为机器学习, 视觉计算, 大数据. 本文通信作者.


【视频专栏】外部干扰和随机DoS攻击下的网联车安全H∞ 队列控制

【视频专栏】航天器姿态受限的协同势函数族设计方法

【视频专栏】虹膜呈现攻击检测综述

【视频专栏】一种边界增强的医学图像小样本分割网络

【视频专栏】基于捕获点理论的混合驱动水下刀锋腿机器人稳定性判据

【视频专栏】面向自动驾驶测试的危险变道场景泛化生成

【视频专栏】全天实时跟踪无人机目标的多正则化相关滤波算法

【视频专栏】面向研究问题的深度学习事件抽取综述

【视频专栏】联合深度超参数卷积和交叉关联注意力的大位移光流估计

【视频专栏】智能网联电动汽车节能优化控制研究进展与展望

【视频专栏】含有输入时滞的非线性系统的输出反馈采样控制

【视频专栏】基于多示例学习图卷积网络的隐写者检测

【视频专栏】逆强化学习算法、理论与应用研究综述

【视频专栏】基于注意力机制和循环域三元损失的域适应目标检测

【视频专栏】基于语境辅助转换器的图像标题生成算法

【视频专栏】数据驱动的间歇低氧训练贝叶斯优化决策方法

【视频专栏】无控制器间通信的线性多智能体一致性的降阶协议

【视频专栏】异策略深度强化学习中的经验回放研究综述

2023年度自动化领域国家自然科学基金申请与资助情况

【视频专栏】基于距离信息的追逃策略:信念状态连续随机博弈

【视频专栏】城市固废焚烧过程智能优化控制研究现状与展望

【视频专栏】深度对比学习综述

【视频专栏】视网膜功能启发的边缘检测层级模型

【视频专栏】一种新的分段式细粒度正则化的鲁棒跟踪算法

【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制

【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制

【视频专栏】基于改进YOLOX的移动机器人目标跟随方法

自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望

【视频专栏】基于多尺度变形卷积的特征金字塔光流计算方法

自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统

【视频专栏】一种同伴知识互增强下的序列推荐方法

自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制

【视频专栏】 基于跨模态实体信息融合的神经机器翻译方法

自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用

【视频专栏】机器人运动轨迹的模仿学习综述

自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用

自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望

自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法

自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制

自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究

自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制

》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价

《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望

城市固废焚烧过程数据驱动建模与自组织控制

面向全量测点耦合结构分析与估计的工业过程监测方法

《自动化学报》多篇论文入选高影响力论文

》复杂网络能控性鲁棒性研究进展

》解耦表征学习综述

》考虑输出约束的冗余驱动绳索并联机器人预设性能控制 

》面向网络空间防御的对抗机器学习研究综述

【虚拟专题】机器人

》基于事件相机的机器人感知与控制综述

》《自动化学报》广受关注论文合集

2022年第01-07期综述

》【热点专题】多目标优化

》【热点专题】目标检测

》异构集群系统分布式自适应输出时变编队跟踪控制

》深海起重机系统的实时轨迹规划方法

》数据和知识驱动的城市污水处理过程多目标优化控制

》基于池的无监督线性回归主动学习

》基于非线性干扰观测器的飞机全电刹车系统滑模控制设计

综合集成研讨厅体系

传感器饱和的非线性网络化系统模糊H∞滤波

基于区块链的数字货币发展现状与展望
比特驱动的瓦特变革—信息能源系统研究综述

》CJCR发布:自动化学报各项主要指标蝉联第1

》JAS最新影响因子15.3,领域排名全球第1

》自动化学报排名第一,持续入选中国权威学术期刊(A+)

》征文|《自动化学报》多智能体系统专刊

》《自动化学报》致谢审稿人(2023年度)

》《自动化学报》兼职编辑招聘启事

》《自动化学报》创刊六十周年学术研讨会第六期

》《自动化学报》创刊六十周年学术研讨会第五期

》自动化学报蝉联百种中国杰出期刊称号

》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文

》《自动化学报》创刊六十周年学术研讨会第三期

》《自动化学报》创刊六十周年学术研讨会第二期

》《自动化学报》创刊六十周年学术研讨会第一期

》《自动化学报》致谢审稿人(2022年度)

》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文

》自动化学报连续11年入选国际影响力TOP期刊榜单

》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1

》JAS最新影响因子7.847,排名全球前10%

《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文

》自动化学报多名作者入选爱思唯尔2021中国高被引学者

》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类

》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文

》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊

》自动化学报蝉联百种中国杰出期刊称号,入选中国精品科技期刊
》《自动化学报》挺进世界期刊影响力指数Q1区
》《自动化学报》多名作者入选科睿唯安2020年度高被引科学家
》自动化学报排名第一,被评定为中国中文权威期刊
》2024年第10期
》2024年第09期
》2024年第08期
》2024年第07期
》2024年第06期
》2024年第05期
》2024年第04期
》2024年第03期
》2024年第02期
》2024年第01期
》2023年第11期
》2023年第10期
》2023年第09期
》2023年第08期
》2023年第07期
》2023年第06期
》2023年第05期
》2023年第04期
》《自动化学报》创刊60周年专刊
2023年第01期
2022年第10期
》2022年第09期
2022年第08期
》2022年第07期
2022年第01-06期
2021年第11期
2021年第10期

》2021年第09期

》2021年第08期
》2021年第07期
》2021年第06期
》2021年第05期
》2021年第04期
》2021年第03期
》2021年第02期
》2021年第01期



长按二维码|关注我们

IEEE/CAA Journal of Automatica Sinica (JAS)

长按二维码|关注我们

《自动化学报》服务号

联系我们

网站: 

http://www.aas.net.cn

https://www.ieee-jas.net

投稿: 

https://mc03.manuscriptcentral.com/aas-cn 

https://mc03.manuscriptcentral.com/ieee-jas 

电话:  010-82544653(日常咨询和稿件处理) 

           010-82544677(录用后稿件处理)

邮箱:  aas@ia.ac.cn(日常咨询和稿件处理)

           aas_editor@ia.ac.cn(录用后稿件处理)

博客: 

http://blog.sina.com.cn/aasedit

点击阅读原文 了解更多

自动化学报
《自动化学报》是由中国自动化学会、中国科学院自动化研究所共同主办的高级学术期刊。该公众服务号旨在发布学报网刊、期刊动态,为读者提供在线网刊、为作者提供在线查稿、为审者提供在线送审的服务。
 最新文章