【学术前沿】叠层模型驱动的书法文字识别方法研究

学术 2024-11-08 20:05 北京

CAA

智慧起航，共创未来

麻斯亮, 许勇. 叠层模型驱动的书法文字识别方法研究. 自动化学报, 2024, 50(5): 947−957

摘要

基于二维图像的书法文字识别是指利用计算机视觉技术对书法文字单字图像进行识别, 在古籍研究和文化传播中具有重要应用. 目前书法文字识别技术已经取得了相当不错的进展, 但依旧面临很多挑战, 比如复杂多变的字形可能导致的识别误差, 汉字本身又存在较多形近字, 且汉字字符类别数与其他语言文字相比更多, 书法文字图像普遍存在类内差距大、类间差距小的问题. 为解决这些问题, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 通过使用数据预处理、节点分离策略和叠层模型对现有单一分类模型进行改进, 按照字体类别对同一类别不同字体风格的文字进行二次划分; 针对类间差距小的问题, 根据书法文字训练集图像识别置信度对形近字进行子集划分, 针对子集进行嵌套模型增强训练, 在测试阶段利用叠层模型对形近字进行二次识别, 提升形近字的识别准确率. 为了验证该方法的鲁棒性, 在自主生成的SCUT_Calligraphy数据集和CASIA-HWDB 1.1, CASIA-AHCDB公开数据集上进行训练和测试, 实验结果表明该方法在上述数据集的识别准确率均有较大幅度提升, 在CASIA-HWDB 1.1、CASIA-AHCDB和自建数据集SCUT_Calligraphy上测试准确率分别达到96.33%、99.51%和99.90%, 证明了该方法的有效性.

引言

文字识别是计算机视觉领域的一个重要问题, 在票证识别[1]、车牌识别[2]、智慧办公等领域都有广泛应用. 书法文字识别是一种特殊场景下的文字识别任务, 能够为古籍研究、文化传播提供极大的帮助. 由于书法文字包含大量繁体字, 字形复杂多变(如图1所示, 包括篆书体(包含大篆、小篆)、隶书体(包含古隶、今隶)、楷书体(包含魏碑、正楷)、行书体(包含行楷、行草)、草书体(包含章草、小草、大草、标准草书)等), 且汉字类别数与其他大多数语言文字相比更多, 汉字本身又存在较多形近字, 导致书法文字识别任务更加复杂. 为了在相同的训练数据上达到更优的识别性能, 本文深入分析了书法文字图像的特点, 结合人类识别物体的生物学特性, 提出叠层模型驱动的书法文字识别方法(Stacked-model driven character recognition, SDCR), 同时使用数据预处理和节点分离策略辅助提升书法文字识别准确率.

图 1 中国书法作品样例

Fig. 1 Samples of Chinese calligraphy works

叠层模型驱动的书法文字识别方法主要从两方面考虑设计: 一是数据预处理, 对训练数据集进行标准化、二值化和降噪等预处理, 提高训练数据的对比度和清晰度, 纠正错误数据, 以确保模型对数据的理解正确; 二是模型优化, 由于ResNet-50[3]在图像分类任务中精度和运算效率与其他框架相比有明显优势, 本文选择ResNet-50作为基线模型搭建叠层神经网络模型, 使用注意力机制和更有效的多分类交叉熵损失函数, 调整模型超参数(如学习率、批量大小等)以优化模型性能, 提高模型的精度, 通过旋转、缩放、梯形变换等数据增强方法提升模型的泛化能力. 通过调整初始化模型权重和偏差来提高模型训练的效率和精度, 使模型在相同的训练数据上获得更优的识别性能.

在过去的数十年中, 深度学习技术在汉字识别任务中取得了较好的效果[4]. 然而, 在大规模书法文字识别任务中, 通常会遇到类别不平衡现象, 其主要原因如下: 1)由于字体风格变化较大, 不同书法家书写同一个字, 字形差异可能非常大, 如图2(a)“足”字多形书法, 导致“足”字类内相似度差距大, 在识别中经常错误识别为“是之亡邑乏丫”等字. 2)由于汉字本身存在较多形近字, 如图2(b)不同类别的书法文字“已己巳巴王壬”字形相似, 导致图像类间相似度差距小. 由于书法文字图像普遍存在类间差距小的问题, 在识别中经常被错误识别. 为解决上述问题, 本文提出叠层模型驱动的书法文字识别方法, 与现有基于深度学习的文字识别方法相比在数据质量、模型设计上有所改进, 不再依靠单模型的优化来提升文字识别性能, 而是通过叠层模型来提取易错形近字的细粒度特征, 进而提升书法文字识别准确率.

图 2 书法文字中同一类字不同字形及形近字示例

Fig. 2 Examples of different glyphs and close shapes of the same type of characters in calligraphy text

本文的主要贡献和创新点包括以下两方面: 一是基于文本标签及不同书法字体生成了包含3767类常用汉字的SCUT_Calligraphy书法文字数据集, 其中训练集和测试集规模分别为251664和26106. SCUT_Calligraphy数据集与现有数据集相比图像质量更高, 包含更多类型的字体和样式, 提供更准确的标注, 覆盖更多汉字类别. 二是提出了叠层模型驱动的书法文字识别方法, 对训练数据中同一类字中字形差异较大的图像数据进行节点分离, 在测试阶段进行节点合并, 有效解决了书法作品中一字多形导致的识别错误; 对形近字子集使用叠层模型进一步提取细粒度特征, 提升小类别范围内的识别准确率, 进而提高大类别场景的书法文字识别准确率, 并能够拓展应用到其他大类别数分类任务中. 综上所述, 本文从数据获取和模型设计的角度重新思考书法文字识别问题, 通过提升训练数据质量和改进模型构造方式来提升书法文字识别性能, 不再局限于单模型的性能优化, 充分提升了书法文字识别性能.

本文第1节将介绍书法文字识别方法和数据集的相关工作和研究现状. 第2节介绍本文构建的叠层模型驱动的书法文字识别方法. 第3节介绍实验设置与结果分析, 通过对比实验验证了本文所述方法的有效性. 最后总结全文.

正文框架

1. 相关工作

1.1 书法文字识别方法

1.2 书法文字识别数据集

2. 方法

2.1 方法动机

2.2 数据生成

2.3 数据预处理

2.4 叠层模型驱动的书法文字识别方法

2.5 基于节点分离的训练策略

2.6 基于细粒度特征提取的书法文字识别子模型

3. 实验

3.1 实验设置

3.2 实验数据集

3.3 评价指标

3.4 实验结果与分析

4. 结论

部分文献

[1] Zhang H N, Dong B, Zheng Q H, Feng B Q, Xu B, Wu H Y. All-content text recognition method for financial ticket images. Multimedia Tools and Applications, 2022, 81(20): 28327−28346 doi: 10.1007/s11042-022-12741-2

[2] Kabiraj A, Pal D, Ganguly D, Chatterjee K, Roy S. Number plate recognition from enhanced super-resolution using generative adversarial network. Multimedia Tools and Applications, 2023, 82(9): 13837−13853 doi: 10.1007/s11042-022-14018-0

[3] He K M, Zhang X Y, Ren S Q, Sun J. Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, USA: IEEE, 2016. 770–778

[4] Bhunia A K, Ghose S, Kumar A, Chowdhury P N, Sain A, Song Y Z. MetaHTR: Towards writer-adaptive handwritten text recognition. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA: IEEE, 2021. 15825–15834

作者简介

麻斯亮，华南理工大学计算机科学与工程学院博士研究生. 主要研究方向为机器学习, 文字图像处理.

许勇，华南理工大学计算机科学与工程学院教授. 主要研究方向为机器学习, 视觉计算, 大数据. 本文通信作者.

免责声明：

本文转载自其它媒体，转载目的在于传递和分享更多信息，并不代表本平台赞同其观点和对其真实性负责，版权归原作者所有，如有侵权请联系我们删除。

CAA会员服务长期征稿！

“CAA会员服务”面向广大学会会员广泛征稿

请将稿件投递至caa@ia.ac.cn

邮件主题为“会员号投稿+栏目名称+文章标题”。

投稿文章需为学会首发，或按照学会编辑格式转载。

END

内容来源|自动化学报

编辑|蔡舒婷

责任编辑|叩颖

点

阅读原文了解更多

点击在看分享出去吧！

http://mp.weixin.qq.com/s?__biz=MzUyODkzOTc3OQ==&mid=2247574626&idx=1&sn=f7e0ccbba50b77ad938464f6af2c08ad

CAA会员服务

CAA会员服务，第一时间传播学会动态，服务会员。

【研途tips】Nature杂志：如何写出一篇一流的论文

【形势通报】教育部部长：稳定支持、长周期评价，支持高校青年教师开展高水平自由探索、非共识创新研究

【学术前沿】刘志卿,池荣虎,黄彪,侯忠生 | 非线性非仿射系统的有限时间PID控制

【形势通报】《人民日报》：让更多科技成果尽快转化为现实生产力

【观点】沈向洋院士：关于大模型的10个思考

【学术前沿】叠层模型驱动的书法文字识别方法研究

【研途tips】研究生论文开题，看这篇助攻～

【形势通报】科学技术普及法22年来首次修订！筑牢大国科普基石

【学术前沿】电子科大王子南团队 | 拉曼光纤随机激光器的时-谱域相关度演变研究

【理事单位】海洋机器人前沿技术中心科研团队发表无人帆船风帆研究综述文章

【学术前沿】上交大闵雄阔, 翟广涛等 | 视频感知质量评价综述

【形势通报】事关博士培养！一文了解博士研究生教育最新部署→

【行业解析】新质生产力解析：全景图+58大产业链图谱

【学术前沿】陈杰院士团队 | 联盟形成问题：以能力为中心的分析和通用模型

【参考消息】这笔钱涨了！速查国家助学贷款最新政策→

【发布】2025年人工智能十大趋势！最新预测→

【学术前沿】李莉莉,马丹等 | 基于切换Q学习事件触发的DoS攻击下切换系统反异步输出调节

【参考消息】2025年考研网上确认时间更新！

【观点】陈清泉院士：未来，汽车将不仅仅是交通工具

【学术前沿】外部干扰和随机DoS攻击下的网联车安全H∞ 队列控制

【参考消息】2024人工智能十大前沿技术趋势展望发布

【发布】502页！《斯坦福2024年人工智能指数报告》发布

【学术前沿】目标驱动的控制系统：从如何做到做什么

【形势通报】强化实践创新导向，专家解读我国首个博士专业学位研究生学位论文与申请学位实践成果质量标准

【学术前沿】北京科技大学王婕等 | 高超声速滑翔飞行器预定时间碰撞规避编队控制

【形势通报】基金委发文：目前约17%资助率过低，危害大，应提升至30~35%，增大青年、面上项目经费

【研途tips】数学家张益唐谈“如何找到愿意为之付出一生的研究事业”

【学术前沿】北京理工大学胡程团队 | 重轨星地双基地SAR层析成像

【观点】专访李德仁院士：2030年一起“玩”卫星

【形势通报】工信部等六部门部署开展2024年度智能工厂梯度培育行动

【学术前沿】高亚军,丛杨等 | 毫米级精度水下RGB-D成像系统（MOOP）

【参考消息】17年来首次重大调整！国务院总理主持，审议通过《国家自然科学基金条例（修订草案）》

【观点】院士谭铁牛通识第一课：人工智能水平即将全面超越人类？谣言！

【学术前沿】西电朱樟明课题组 | 使用极点优化技术的精度可配置Zoom型模数转换器设计

【参考消息】官宣：支持这些高校，进“双一流”！

【理事单位】首个知识与数据联合驱动的多物种生命基础大模型GeneCompass

【学术前沿】上海交通大学王贺升教授团队：基于目标检测和场景流估计联合优化的3D多目标跟踪

【参考消息】教育部：每年遴选一批40周岁以下的高校优秀青年教师，给予最长10年稳定支持

【形势通报】5类人工智能教育场景逐步普及

【学术前沿】杨勋,曾建明,汪萌等 | 基于跨模态对比表征学习的鲁棒视频问答

【形势通报】专家谈《关于加快推动博士研究生教育高质量发展的意见》：推动规模质量协调发展

【研途tips】2025硕士统考报名将于28日结束，考生还需关注这些事项

【学术前沿】欧洲科学院院士韩清龙教授团队 | 基于累计状态误差的事件触发机制

【观点】机器人会有意识？张钹院士：我认为估计过高了

【形势通报】科技部：把科普工作成效作为科技人才计划评审的重要参考

【学术前沿】基于多机制协同设计的低频超宽带波段吸波体

【形势通报】中共中央办公厅国务院办公厅印发《关于加快推动博士研究生教育高质量发展的意见》

【参考消息】科技部发布重点专项申报指南及项目正式申报书填报通知

【CAA赛事】2024年“中国智能车未来挑战赛”赛事指南

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉