顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

科技 2024-11-24 23:59 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：CSIG文档图像分析与识别专委会

TPAMI 2024

本文简要介绍TPAMI 2024录用论文“Partial Scene Text Retrieval”。这篇文章首次介绍了局部场景文字检索任务，并提出一种局部场景文字检索方法，能够在图像库中定位和搜索与给定查询文本相同或相似的文本实例或文本实例的局部块。

研究背景

场景文字检索旨在从图像库中定位和搜索与给定查询文本相同或相似的文本实例，如图1（a）所示。局部场景文字检索不仅能从图像库中搜索到文本实例，而且能搜索位于文本实例的某一局部块，如图1（b）和（c）所示。而局部块可以进一步分为连续的局部块（图1（b））和非连续的局部块（图1（c））两种。可见，场景文字检索是局部场景文字检索的一种特例，即目标局部块是文本实例本身。局部场景文字检索极大扩展了场景文字检索的应用范围，如支持复合词、词前缀/后缀、缩写等文本的检索。

图1：场景文字检索与局部场景文字检索

一种常见的场景文字检索系统集成了场景文字检测和场景文字识别等算法，提取出自然图像内的所有文字，将场景文字检索问题转化为字符串匹配问题。一些方法[4,5,1]表明该方法的检索准确度非常依赖于文字检测与识别模型，多个模型间的错误累积会降低场景文字检索的精度。本文提出的局部场景文字检索（PSTR）是一种基于跨模态相似性度量的方法[1]，它直接度量查询文本和图像内场景文字间的相似度，无需识别出图像内的场景文字。但是方法[1]无法检索场景文字的局部块。更近一步，PSTR解决以下两个难点问题，从而能检索场景文字局部块：

1）如何学习查询文本特征与场景文字实例内局部块特征的相似度：场景文字数据集中通常只标注了场景文字的文本内容，而未标注每一个局部块的文本内容。因此，在无需增加大量人力对每个局部块进行标注的情况下，学习查询文本和局部块之间的相似度是一个弱监督学习问题。本文提出排序多示例学习（RankMIL）优化查询文本和场景文字实例内局部块的相似度。

2）如何高效地匹配查询文本与场景文字实例内局部块：场景文字实例内的局部块（包括连续的局部块和非连续的局部块）的个数是无限的，将查询文本和每个局部块进行两两匹配是不可取的。本文提出动态局部匹配算法（DPMA）高效地从场景文字实例中搜索出与查询文本相似度最高的局部块。DPMA的核心思想是将场景文字实例特征和查询文本特征均视为有限个连续非重叠的局部单元，采用动态规划算法从场景文字实例特征中搜索一个局部单元序列（序列可以是非连续的）。

方法原理简述

PSTR方法框架如下图所示，包含两个网络模块与两个学习任务。其中场景文字候选区域提取模块与词嵌入模块与方法[1]中的模型架构基本一致，不同之处在于，为了检索任意形状的场景文字，采用方法[6，7]中边界点表示场景文字形状的形状。两个学习任务分别为跨模态相似性学习与排序多示例学习，其中跨模态相似性学习任务与方法[1]中的保持一致。

在训练阶段，PSTR的输入包括图像和待检索的查询文本。场景文字候选区域提取模块从输入图像中提取场景文字实例，随后，在每个文字实例内采样局部块构建一个包。与此同时，词嵌入模块将查询文本转化为词特征向量。跨模态相似性学习优化文本行实例特征与词特征向量之间的相似度，排序多示例学习优化包内局部块特征和词特征向量之间的相似度。

图2：PSTR训练流程图

(一) 排序多示例学习（RankMIL）

多示例学习的核心思想是；训练数据中存在多个包，每个包中存在多个未知标签的实例，且已知包中存在某个类别的实例，求解测试集中实例的类别。该思想适用于局部场景文字检索，即在训练集中，已知每个文本实例的文本内容，从文本实例采样大量的局部块构成的集合视为多示例学习中的包，每个查询文本视为一个类别，那么包中是否存在指定类别便是已知的，其满足多示例学习的条件。其优化公式如下所示：

其中， $sim_f$ 代表 $f_{q_j}$ 两特征间的余弦相似度， $f_{q_j}$ 是查询文本特征， $I\left(t_{q_j}\exists T^r\left(t_{p_i^l}\right)\right)$ 表示查询文本对于的字符串 $t_{q_j}$ 是否存在于包标签 $T^r\left(t_{p_i^l}\right)$ 之中，存在则为1，否则为0。 $f_{P^r\left(p_i^l\right)}$ 代表从场景文字实例 $p_i^l$ 中构建的包的特征，定义如下：

但是文字是一种序列类型物体，包中存在极度相似的局部块会干扰多示例学习。因此我们提出RankMIL来降低相似局部块间的影响。具体地，RankMIL只选择去优化与查询文本处于一定相似度区间的局部块。如图3所示，当查询文本是“BAR”时，MIL会优化任一局部块与查询文本的相似度，而RankMIL仅优化处于绿色区域的局部块。其中位于绿色区域局部块的含义为：其与查询文本的相似度大于文本行实例与查询文本的相似度，但不大于一定的范围，该范围的度量用超参数m表示。

图3：MIL和RankMIL的对比

（二）动态局部匹配算法（DPMA）

动态局部匹配算法主要用于推理阶段，旨在快速从文本行实例特征中提取出与查询文本最为相似的一个局部块。如下图所示：将文本行实例特征和查询文本特征均视为有限个连续非重叠的局部单元，两种特征构成如图（a）所示的二维网格，从网格的第一列依次搜索到最后一列，寻找一条最优路径，路径上的特征构成一个新的特征序列，使得新的特征序列与查询文本特征的相似度最大。如图（a）所示，得到的最优路径在文本行实例上的投影，构成的局部单元拼接在一起便构成与查询文本最为相似的一个局部块（如图（b）所示）。

图4：DPMA算法

可以发现，搜索出的最优路径在纵轴上可以是不连续的，因此，DPMA可以高效地检索非连续局部块。

主要实验结果

为验证PSTR在中英文数据集上的有效性，我们在三个英文数据集（STR、CTR和ArT）和三个中文数据集（CSVTRv2、ReCTS和LSVT）上验证文本行检索（TIR）和局部块检索（PPR）性能。从TABLE 7和TABLE 8可以看出，我们方法在中英文数据集上均取得最好的检索性能，优于基于文字识别的方法（Mask TextSpotter v3[6]和ABCNet[7]）和其它的文字检索方法。尤其是在局部块检索任务中，DPMA算法极大提升了性能。

PSTR方法的检索效果图5所示，三行结果分别是检索文本行实例、连续的局部块和非连续的局部块。可以看出，PSTR不仅检索出包含查询文本的图像，而且定位出查询文本在图像中的位置，对于非连续的局部块，同样能定位局部单元。

图5：局部场景文字检索效果

图6展示DPMA算法的检索过程，（a）列是场景文字候选区域提取模块定位的文本行，（b）列展示的文本区域是查询文本和（a）列文本行实例直接计算相似度得到的最相似区域，（c）列展示的文本区域是查询文本和（a）列文本行实例通过DPMA算法搜索的最相似区域。可以看出，DPMA算法能够准确定位出目标局部块。

图6：DPMA算法搜索效果

总结

本文首次提出局部场景文字检索任务，并提出PSTR算法，能够同时检索文本行实例和场景文字的局部区域，极大扩展了场景文字检索的应用范围。设计的排序多示例学习策略能够在无需场景文字局部块标注的情况下，学习查询文本和场景文字局部块间的相似度，不仅节约了大量的模型训练成本，而且使得文字检索方法首次能够同时处理文本行实例和文本行内的局部块。另外，针对多示例学习方法在测试阶段因构造包数据而导致速度慢的难题，本方法提出的动态局部匹配算法，能够使得模型免于构建包数据而完成局部块的检索，使得检索模型能够处理非连续局部块的能力。

相关资源

论文链接：

https://arxiv.org/pdf/2411.10261

代码地址：

https://github.com/lanfeng4659/PSTR

参考文献

[1] Wang H, Bai X, Yang M, et al. Scene text retrieval via joint text detection and similarity learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 4558-4567.

[2] Wang H, Lu P, Zhang H, et al. All you need is boundary: Toward arbitrary-shaped text spotting[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(07): 12160-12167.

[3] Lu P, Wang H, Zhu S, et al. Boundary TextSpotter: Toward arbitrary-shaped scene text spotting[J]. IEEE Transactions on Image Processing, 2022, 31: 6200-6212.

[4] Gómez L, Mafla A, Rusinol M, et al. Single shot scene text retrieval[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 700-715.

[5] Mafla A, Tito R, Dey S, et al. Real-time lexicon-free scene text retrieval[J]. Pattern Recognition, 2021, 110: 107656.

[6] Liao M, Pang G, Huang J, et al. Mask textspotter v3: Segmentation proposal network for robust scene text spotting[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XI 16. Springer International Publishing, 2020: 706-722.

[7] Liu Y, Shen C, Jin L, et al. Abcnet v2: Adaptive bezier-curve network for real-time end-to-end text spotting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 44(11): 8048-8064.

END

撰稿：Hao Wang ｜编排：张雪莹

审校：殷飞｜发布：连宙辉

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247611513&idx=2&sn=d13a013367cf41d111c55221af37d0c0

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

炼丹神器来了！ Kaggle大神强推！

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

Nature子刊！ViTaM：全新的视觉 - 触觉联合记录和追踪系统

AAAI 2025 开奖倒计时！CVPR 2025、ICLR 2025 投稿微信群来了！

最大的Mamba和遥感微信群成立！

大学“一级教授”和“四级教授”的区别有多大？

中央发文：不合格博士生，退出！

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

仅仅一天，Gemini就夺回了GPT-4o拿走的头名！

AAAI 2025 即将开奖！附CVPR 2025、ICLR 2025 投稿微信群！

异常检测和缺陷检测微信群成立！

教育部公布：2025年考研人数，再降50万！

16岁中学生获正高职称，后续来了

可以封神了！原来找论文idea这么简单

NeurIPS 2024 Oral | NeuroClips：揭秘从脑信号重建高保真流畅视频

ICLR 2025 改分啦！ICLR 2025和CVPR 2025投稿微信群成立！

DeepSeek团队新作JanusFlow：1.3B大模型统一视觉理解和生成

年仅42岁！一高校青年教师病逝……

面试小米，惨不忍睹。。。

NeurIPS 2024 | 收敛加快8倍，准确率提升超30%！华科大提出MoE Jetpack框架

ACM MM 2024 | S2TD-Face：基于素描输入的精细3D人脸重建方法

CVPR 2025、ICLR 2025和AAAI 2025投稿微信群来了！

扩散模型和多模态微信群成立！

重磅！2024年全球高被引科学家名单出炉！

YOLO跌落神坛？新一代目标检测器有新突破

NeurIPS 2024 | Coupled Mamba：通过耦合SSM增强多模态融合

MMRel：多模态大模型时代的评测物体间关系理解新基准

ICASSP 2025 出分了！投稿群成立！附CVPR 、AAAI 2025交流群！

医学图像微信群来了！

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

顶刊TPAMI 2024！白翔团队提出：局部场景文字检索任务和新方法

AI/CV重磅干货，第一时间送达点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba/多模态/扩散】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！