【视频专栏】叠层模型驱动的书法文字识别方法研究

文摘科技 2024-11-07 17:01 北京

点击上方蓝字关注我们

麻斯亮, 许勇. 叠层模型驱动的书法文字识别方法研究. 自动化学报, 2024, 50(5): 947−957

摘要

基于二维图像的书法文字识别是指利用计算机视觉技术对书法文字单字图像进行识别, 在古籍研究和文化传播中具有重要应用. 目前书法文字识别技术已经取得了相当不错的进展, 但依旧面临很多挑战, 比如复杂多变的字形可能导致的识别误差, 汉字本身又存在较多形近字, 且汉字字符类别数与其他语言文字相比更多, 书法文字图像普遍存在类内差距大、类间差距小的问题. 为解决这些问题, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 通过使用数据预处理、节点分离策略和叠层模型对现有单一分类模型进行改进, 按照字体类别对同一类别不同字体风格的文字进行二次划分; 针对类间差距小的问题, 根据书法文字训练集图像识别置信度对形近字进行子集划分, 针对子集进行嵌套模型增强训练, 在测试阶段利用叠层模型对形近字进行二次识别, 提升形近字的识别准确率. 为了验证该方法的鲁棒性, 在自主生成的SCUT_Calligraphy数据集和CASIA-HWDB 1.1, CASIA-AHCDB公开数据集上进行训练和测试, 实验结果表明该方法在上述数据集的识别准确率均有较大幅度提升, 在CASIA-HWDB 1.1、CASIA-AHCDB和自建数据集SCUT_Calligraphy上测试准确率分别达到96.33%、99.51%和99.90%, 证明了该方法的有效性.

引言

文字识别是计算机视觉领域的一个重要问题, 在票证识别[1]、车牌识别[2]、智慧办公等领域都有广泛应用. 书法文字识别是一种特殊场景下的文字识别任务, 能够为古籍研究、文化传播提供极大的帮助. 由于书法文字包含大量繁体字, 字形复杂多变(如图1所示, 包括篆书体(包含大篆、小篆)、隶书体(包含古隶、今隶)、楷书体(包含魏碑、正楷)、行书体(包含行楷、行草)、草书体(包含章草、小草、大草、标准草书)等), 且汉字类别数与其他大多数语言文字相比更多, 汉字本身又存在较多形近字, 导致书法文字识别任务更加复杂. 为了在相同的训练数据上达到更优的识别性能, 本文深入分析了书法文字图像的特点, 结合人类识别物体的生物学特性, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 同时使用数据预处理和节点分离策略辅助提升书法文字识别准确率.

图 1 中国书法作品样例

Fig. 1 Samples of Chinese calligraphy works

叠层模型驱动的书法文字识别方法主要从两方面考虑设计: 一是数据预处理, 对训练数据集进行标准化、二值化和降噪等预处理, 提高训练数据的对比度和清晰度, 纠正错误数据, 以确保模型对数据的理解正确; 二是模型优化, 由于ResNet-50[3]在图像分类任务中精度和运算效率与其他框架相比有明显优势, 本文选择ResNet-50作为基线模型搭建叠层神经网络模型, 使用注意力机制和更有效的多分类交叉熵损失函数, 调整模型超参数(如学习率、批量大小等)以优化模型性能, 提高模型的精度, 通过旋转、缩放、梯形变换等数据增强方法提升模型的泛化能力. 通过调整初始化模型权重和偏差来提高模型训练的效率和精度, 使模型在相同的训练数据上获得更优的识别性能.

在过去的数十年中, 深度学习技术在汉字识别任务中取得了较好的效果[4]. 然而, 在大规模书法文字识别任务中, 通常会遇到类别不平衡现象, 其主要原因如下: 1)由于字体风格变化较大, 不同书法家书写同一个字, 字形差异可能非常大, 如图2(a)“足”字多形书法, 导致“足”字类内相似度差距大, 在识别中经常错误识别为“是之亡邑乏丫”等字. 2)由于汉字本身存在较多形近字, 如图2(b)不同类别的书法文字“已己巳巴王壬”字形相似, 导致图像类间相似度差距小. 由于书法文字图像普遍存在类间差距小的问题, 在识别中经常被错误识别. 为解决上述问题, 本文提出叠层模型驱动的书法文字识别方法, 与现有基于深度学习的文字识别方法相比在数据质量、模型设计上有所改进, 不再依靠单模型的优化来提升文字识别性能, 而是通过叠层模型来提取易错形近字的细粒度特征, 进而提升书法文字识别准确率.

图 2 书法文字中同一类字不同字形及形近字示例

Fig. 2 Examples of different glyphs and close shapes of the same type of characters in calligraphy text

本文的主要贡献和创新点包括以下两方面: 一是基于文本标签及不同书法字体生成了包含3767类常用汉字的SCUT_Calligraphy书法文字数据集, 其中训练集和测试集规模分别为251664和26106. SCUT_Calligraphy数据集与现有数据集相比图像质量更高, 包含更多类型的字体和样式, 提供更准确的标注, 覆盖更多汉字类别. 二是提出了叠层模型驱动的书法文字识别方法, 对训练数据中同一类字中字形差异较大的图像数据进行节点分离, 在测试阶段进行节点合并, 有效解决了书法作品中一字多形导致的识别错误; 对形近字子集使用叠层模型进一步提取细粒度特征, 提升小类别范围内的识别准确率, 进而提高大类别场景的书法文字识别准确率, 并能够拓展应用到其他大类别数分类任务中. 综上所述, 本文从数据获取和模型设计的角度重新思考书法文字识别问题, 通过提升训练数据质量和改进模型构造方式来提升书法文字识别性能, 不再局限于单模型的性能优化, 充分提升了书法文字识别性能.

本文第1节将介绍书法文字识别方法和数据集的相关工作和研究现状. 第2节介绍本文构建的叠层模型驱动的书法文字识别方法. 第3节介绍实验设置与结果分析, 通过对比实验验证了本文所述方法的有效性. 最后总结全文.

正文框架

1. 相关工作

1.1 书法文字识别方法

1.2 书法文字识别数据集

2. 方法

2.1 方法动机

2.2 数据生成

2.3 数据预处理

2.4 叠层模型驱动的书法文字识别方法

2.5 基于节点分离的训练策略

2.6 基于细粒度特征提取的书法文字识别子模型

3. 实验

3.1 实验设置

3.2 实验数据集

3.3 评价指标

3.4 实验结果与分析

4. 结论

部分文献

[1] Zhang H N, Dong B, Zheng Q H, Feng B Q, Xu B, Wu H Y. All-content text recognition method for financial ticket images. Multimedia Tools and Applications, 2022, 81(20): 28327−28346 doi: 10.1007/s11042-022-12741-2

[2] Kabiraj A, Pal D, Ganguly D, Chatterjee K, Roy S. Number plate recognition from enhanced super-resolution using generative adversarial network. Multimedia Tools and Applications, 2023, 82(9): 13837−13853 doi: 10.1007/s11042-022-14018-0

[3] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770–778

[4] Bhunia A K, Ghose S, Kumar A, Chowdhury P N, Sain A, Song Y Z. MetaHTR: Towards writer-adaptive handwritten text recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 15825–15834

作者简介

麻斯亮，华南理工大学计算机科学与工程学院博士研究生. 主要研究方向为机器学习, 文字图像处理.

许勇，华南理工大学计算机科学与工程学院教授. 主要研究方向为机器学习, 视觉计算, 大数据. 本文通信作者.