CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第三十期于2024年10月29日成功举行。本沙龙由中国图象图形学学会(CSIG)主办,CSIG文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请中国科学技术大学屈亚东博士分享报告:ViSu:一种基于观察与归纳的半监督场景文本识别方法。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号、进行了同步直播,累计人气4000以上。
本场报告活动由中国科学技术大学博士生徐建军主持,中国科学技术大学博士生屈亚东做了题为“ViSu:一种基于观察与归纳的半监督场景文本识别方法”的学术报告。本报告首先展示了目前自然场景识别领域的瓶颈,通过对复杂字符难以识别的原因进行分析,从而引出本研究的动机。ViSu从观察与归纳两个方面展开研究:在观察阶段,采用Mean-Teacher网络框架引入无标注的真实数据进行训练,同时针对有标注的简单合成数据部分提出了在线生成策略,使模型从简单的训练数据中能够泛化出识别复杂字符的能力,进而提升半监督学习框架的性能上限。在归纳阶段,ViSu基于对比学习提出了字符单向对齐损失,从理论上修正了将部分正样本误认为负样本的公式误差,增强了模型对字符视觉形态的鲁棒性。大量实验验证了ViSu的优越性,在不引入人工标注的情况下,ViSu在多个公开测试集上都达到了SOTA,尤其在复杂数据集上提升显著。
报告论文:
[1] Yadong Qu, Yuxin Wang, Bangbang Zhou, Zixiao Wang, Hongtao Xie, and Yongdong Zhang. Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing. NeurIPS 2024 accepted.
本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!
错过直播的同学可以前往B站观看回放视频,链接:
https://www.bilibili.com/video/BV18MDhYiEYi/
或扫描二维码观看