【动态】第三十期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

学术   2024-11-11 17:32   北京  


CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第三十期于2024年10月29日成功举行。本沙龙由中国图象图形学学会(CSIG)主办,CSIG文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请中国科学技术大学屈亚东博士分享报告:ViSu:一种基于观察与归纳的半监督场景文本识别方法。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号、进行了同步直播,累计人气4000以上。

本场报告活动由中国科学技术大学博士生徐建军主持,中国科学技术大学博士生屈亚东做了题为“ViSu:一种基于观察与归纳的半监督场景文本识别方法”的学术报告。本报告首先展示了目前自然场景识别领域的瓶颈,通过对复杂字符难以识别的原因进行分析,从而引出本研究的动机。ViSu从观察与归纳两个方面展开研究:在观察阶段,采用Mean-Teacher网络框架引入无标注的真实数据进行训练,同时针对有标注的简单合成数据部分提出了在线生成策略,使模型从简单的训练数据中能够泛化出识别复杂字符的能力,进而提升半监督学习框架的性能上限。在归纳阶段,ViSu基于对比学习提出了字符单向对齐损失,从理论上修正了将部分正样本误认为负样本的公式误差,增强了模型对字符视觉形态的鲁棒性。大量实验验证了ViSu的优越性,在不引入人工标注的情况下,ViSu在多个公开测试集上都达到了SOTA,尤其在复杂数据集上提升显著。

报告论文:

[1] Yadong Qu, Yuxin Wang, Bangbang Zhou, Zixiao Wang, Hongtao Xie, and Yongdong Zhang. Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing. NeurIPS 2024 accepted.

本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!

错过直播的同学可以前往B站观看回放视频,链接:

https://www.bilibili.com/video/BV18MDhYiEYi/

或扫描二维码观看





图像图形领域高质量科技期刊分级目录
中国图象图形学学会科普活动、素材征集通知
中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果评价的通知
2024年CSIG图像图形中国行承办方征集中

中国图象图形学学会CSIG
发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息,促进该学科技术的发展和在国民经济各个领域的推广应用。
 最新文章