【论文荐读】空间变形鲁棒场景中构建超分辨率文本图像的文本注意网络

文摘   科技   2023-05-11 09:38   江苏  


标题:A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution

期刊:Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5911-5920. IEEE, 2022

作者:Jianqi Ma, Zhetong Liang, Lei Zhang

单位:The Hong Kong Polytechnic University, OPPO Research

1、主要解决问题:
场景文本图像在成像过程中往往会遇到各种质量下降,导致分辨率低,结构模糊,这一问题严重影响了下游高级识别任务的性能。目前,文本识别工作中的架构主要采用卷积等基于位置的操作,无法有效捕获由变形引起的大位置变化,对于变形文本的识别依旧存在困难。为解决上述问题,论文重点关注高分辨率文本图像的恢复问题,通过场景文本恢复以获得更好的识别效果。

2、研究方法:
针对空间变形鲁棒文本的超分辨率(即提高文本图像的分辨率和可读性),论文提出了一个基于卷积的本文注意力网络(CNN based Text ATTention network, TATT),如图1所示。该网络通过卷积和文本先验两条路径对低分辨率图像分别进行处理,并将文本先验中获取的语义信息引导分配到特征空间域中的相应位置,以指导最终的文本恢复。

图1 TATT结构框架

为了获取文本先验信息与图像特征之间的相关性,论文设计了一个文本先验解释器(Text Prior Interpreter, TPI),结构如图2所示。所提出的TP解释器由编码器部分和解码器部分组成。编码器主要对文本先验的相关性进行计算,获得强化特征;解码器将图像特征和来自编码器的增强特征之间进行交叉注意,将语义信息解释为图像特征。

图2 TP解释器结构

此外,为了改善重建文本图像的视觉外观,论文模拟变形的文本图像并设计文本结构一致性(Text Structure Consistency, TSC)损失来训练所提出的TATT网络。

在实验验证部分,论文以峰值信噪比和结构一致性作为评价指标,评估提出的TATT网络的文本图像恢复性能,并在不同数据集上进行识别效果比较。结果显示,论文提出的TATT网络对文本图像的超分辨率效果较好,如图3所示;同时,经过TSC损失训练后的TATT网络在场景文本图像的识别表现上优于其他现有算法,结果如图4所示。

图3 TATT与现有算法的文本恢复性能对比

图4 TATT与现有算法的文本识别效果对比

3、结论:

论文提出的TATT文本注意网络利用文本先验,来指导文本图像的恢复;在此基础上开发了TP解释器,将语义域中的先验文本与图像特征域中的字符区域全局关联;同时,提出了一种文本结构一致性损失方法来训练TATT模型。论文提出的方法在文本图像超分辨率任务中取得了最先进的性能,而且在下游文本识别任务中也取得了最先进的性能。



智能自主无人系统课题组
智能自主无人系统(IAUS)课题组坚持“面向国家重大科技需求,引领行业技术进步”的思路,专注于人工智能技术在自主无人系统、机器人、智能工程装备领域的基础和应用研究,分享和发布最新科研动态及研究成果。
 最新文章