标题:A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution
期刊:Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5911-5920. IEEE, 2022
作者:Jianqi Ma, Zhetong Liang, Lei Zhang
单位:The Hong Kong Polytechnic University, OPPO Research
为了获取文本先验信息与图像特征之间的相关性,论文设计了一个文本先验解释器(Text Prior Interpreter, TPI),结构如图2所示。所提出的TP解释器由编码器部分和解码器部分组成。编码器主要对文本先验的相关性进行计算,获得强化特征;解码器将图像特征和来自编码器的增强特征之间进行交叉注意,将语义信息解释为图像特征。
在实验验证部分,论文以峰值信噪比和结构一致性作为评价指标,评估提出的TATT网络的文本图像恢复性能,并在不同数据集上进行识别效果比较。结果显示,论文提出的TATT网络对文本图像的超分辨率效果较好,如图3所示;同时,经过TSC损失训练后的TATT网络在场景文本图像的识别表现上优于其他现有算法,结果如图4所示。
图4 TATT与现有算法的文本识别效果对比
3、结论:
论文提出的TATT文本注意网络利用文本先验,来指导文本图像的恢复;在此基础上开发了TP解释器,将语义域中的先验文本与图像特征域中的字符区域全局关联;同时,提出了一种文本结构一致性损失方法来训练TATT模型。论文提出的方法在文本图像超分辨率任务中取得了最先进的性能,而且在下游文本识别任务中也取得了最先进的性能。