顶刊TPAMI 2024!白翔团队提出:局部场景文字检索任务和新方法

科技   2024-11-24 23:59   上海  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:CSIG文档图像分析与识别专委会

TPAMI 2024


本文简要介绍TPAMI 2024录用论文“Partial Scene Text Retrieval”。这篇文章首次介绍了局部场景文字检索任务,并提出一种局部场景文字检索方法,能够在图像库中定位和搜索与给定查询文本相同或相似的文本实例或文本实例的局部块。

01

研究背景

场景文字检索旨在从图像库中定位和搜索与给定查询文本相同或相似的文本实例,如图1(a)所示。局部场景文字检索不仅能从图像库中搜索到文本实例,而且能搜索位于文本实例的某一局部块,如图1(b)和(c)所示。而局部块可以进一步分为连续的局部块(图1(b))和非连续的局部块(图1(c))两种。可见,场景文字检索是局部场景文字检索的一种特例,即目标局部块是文本实例本身。局部场景文字检索极大扩展了场景文字检索的应用范围,如支持复合词、词前缀/后缀、缩写等文本的检索。

图1:场景文字检索与局部场景文字检索


一种常见的场景文字检索系统集成了场景文字检测和场景文字识别等算法,提取出自然图像内的所有文字,将场景文字检索问题转化为字符串匹配问题。一些方法[4,5,1]表明该方法的检索准确度非常依赖于文字检测与识别模型,多个模型间的错误累积会降低场景文字检索的精度。本文提出的局部场景文字检索(PSTR)是一种基于跨模态相似性度量的方法[1],它直接度量查询文本和图像内场景文字间的相似度,无需识别出图像内的场景文字。但是方法[1]无法检索场景文字的局部块。更近一步,PSTR解决以下两个难点问题,从而能检索场景文字局部块 :


1)如何学习查询文本特征与场景文字实例内局部块特征的相似度:场景文字数据集中通常只标注了场景文字的文本内容,而未标注每一个局部块的文本内容。因此,在无需增加大量人力对每个局部块进行标注的情况下,学习查询文本和局部块之间的相似度是一个弱监督学习问题。本文提出排序多示例学习(RankMIL)优化查询文本和场景文字实例内局部块的相似度。


2)如何高效地匹配查询文本与场景文字实例内局部块:场景文字实例内的局部块(包括连续的局部块和非连续的局部块)的个数是无限的,将查询文本和每个局部块进行两两匹配是不可取的。本文提出动态局部匹配算法(DPMA)高效地从场景文字实例中搜索出与查询文本相似度最高的局部块。DPMA的核心思想是将场景文字实例特征和查询文本特征均视为有限个连续非重叠的局部单元,采用动态规划算法从场景文字实例特征中搜索一个局部单元序列(序列可以是非连续的)。

2

方法原理简述

PSTR方法框架如下图所示,包含两个网络模块与两个学习任务。其中场景文字候选区域提取模块与词嵌入模块与方法[1]中的模型架构基本一致,不同之处在于,为了检索任意形状的场景文字,采用方法[6,7]中边界点表示场景文字形状的形状。两个学习任务分别为跨模态相似性学习与排序多示例学习,其中跨模态相似性学习任务与方法[1]中的保持一致。


在训练阶段,PSTR的输入包括图像和待检索的查询文本。场景文字候选区域提取模块从输入图像中提取场景文字实例,随后,在每个文字实例内采样局部块构建一个包。与此同时,词嵌入模块将查询文本转化为词特征向量。跨模态相似性学习优化文本行实例特征与词特征向量之间的相似度,排序多示例学习优化包内局部块特征和词特征向量之间的相似度。

图2:PSTR训练流程图


(一) 排序多示例学习(RankMIL)


多示例学习的核心思想是;训练数据中存在多个包,每个包中存在多个未知标签的实例,且已知包中存在某个类别的实例,求解测试集中实例的类别。该思想适用于局部场景文字检索,即在训练集中,已知每个文本实例的文本内容,从文本实例采样大量的局部块构成的集合视为多示例学习中的包,每个查询文本视为一个类别,那么包中是否存在指定类别便是已知的,其满足多示例学习的条件。其优化公式如下所示:

其中,  代表  两特征间的余弦相似度,  是查询文本特征,  表示查询文本对于的字符串  是否存在于包标签  之中,存在则为1,否则为0。  代表从场景文字实例  中构建的包的特征,定义如下:

但是文字是一种序列类型物体,包中存在极度相似的局部块会干扰多示例学习。因此我们提出RankMIL来降低相似局部块间的影响。具体地,RankMIL只选择去优化与查询文本处于一定相似度区间的局部块。如图3所示,当查询文本是“BAR”时,MIL会优化任一局部块与查询文本的相似度,而RankMIL仅优化处于绿色区域的局部块。其中位于绿色区域局部块的含义为:其与查询文本的相似度大于文本行实例与查询文本的相似度,但不大于一定的范围,该范围的度量用超参数m表示。

图3:MIL和RankMIL的对比


(二)动态局部匹配算法(DPMA)


动态局部匹配算法主要用于推理阶段,旨在快速从文本行实例特征中提取出与查询文本最为相似的一个局部块。如下图所示:将文本行实例特征和查询文本特征均视为有限个连续非重叠的局部单元,两种特征构成如图(a)所示的二维网格,从网格的第一列依次搜索到最后一列,寻找一条最优路径,路径上的特征构成一个新的特征序列,使得新的特征序列与查询文本特征的相似度最大。如图(a)所示,得到的最优路径在文本行实例上的投影,构成的局部单元拼接在一起便构成与查询文本最为相似的一个局部块(如图(b)所示)。

图4:DPMA算法


可以发现,搜索出的最优路径在纵轴上可以是不连续的,因此,DPMA可以高效地检索非连续局部块。

3

主要实验结果

为验证PSTR在中英文数据集上的有效性,我们在三个英文数据集(STR、CTR和ArT)和三个中文数据集(CSVTRv2、ReCTS和LSVT)上验证文本行检索(TIR)和局部块检索(PPR)性能。从TABLE 7和TABLE 8可以看出,我们方法在中英文数据集上均取得最好的检索性能,优于基于文字识别的方法(Mask TextSpotter v3[6]和ABCNet[7])和其它的文字检索方法。尤其是在局部块检索任务中,DPMA算法极大提升了性能。

PSTR方法的检索效果图5所示,三行结果分别是检索文本行实例、连续的局部块和非连续的局部块。可以看出,PSTR不仅检索出包含查询文本的图像,而且定位出查询文本在图像中的位置,对于非连续的局部块,同样能定位局部单元。

图5:局部场景文字检索效果


图6展示DPMA算法的检索过程,(a)列是场景文字候选区域提取模块定位的文本行,(b)列展示的文本区域是查询文本和(a)列文本行实例直接计算相似度得到的最相似区域,(c)列展示的文本区域是查询文本和(a)列文本行实例通过DPMA算法搜索的最相似区域。可以看出,DPMA算法能够准确定位出目标局部块。

图6:DPMA算法搜索效果

4

总结

本文首次提出局部场景文字检索任务,并提出PSTR算法,能够同时检索文本行实例和场景文字的局部区域,极大扩展了场景文字检索的应用范围。设计的排序多示例学习策略能够在无需场景文字局部块标注的情况下,学习查询文本和场景文字局部块间的相似度,不仅节约了大量的模型训练成本,而且使得文字检索方法首次能够同时处理文本行实例和文本行内的局部块。另外,针对多示例学习方法在测试阶段因构造包数据而导致速度慢的难题,本方法提出的动态局部匹配算法,能够使得模型免于构建包数据而完成局部块的检索,使得检索模型能够处理非连续局部块的能力。

5

相关资源

论文链接:

https://arxiv.org/pdf/2411.10261

代码地址:

https://github.com/lanfeng4659/PSTR

参考文献

[1] Wang H, Bai X, Yang M, et al. Scene text retrieval via joint text detection and similarity learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4558-4567.

[2] Wang H, Lu P, Zhang H, et al. All you need is boundary: Toward arbitrary-shaped text spotting[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(07): 12160-12167.

[3] Lu P, Wang H, Zhu S, et al. Boundary TextSpotter: Toward arbitrary-shaped scene text spotting[J]. IEEE Transactions on Image Processing, 2022, 31: 6200-6212.

[4] Gómez L, Mafla A, Rusinol M, et al. Single shot scene text retrieval[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 700-715.

[5] Mafla A, Tito R, Dey S, et al. Real-time lexicon-free scene text retrieval[J]. Pattern Recognition, 2021, 110: 107656.

[6] Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XI 16. Springer International Publishing, 2020: 706-722.

[7] Liu Y, Shen C, Jin L, et al. Abcnet v2: Adaptive bezier-curve network for real-time end-to-end text spotting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(11): 8048-8064.

END

撰稿:Hao Wang |编排:张雪莹

审校:殷飞 |发布:连宙辉

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

CVer
一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。
 最新文章