近日,iPad团队本科生论文被第七届中国模式识别与计算机视觉会议PRCV 2024录用,并选取为Oral论文。论文题目为《MFH: Marrying Frequency Domain with Handwritten Mathematical Expression Recognition》,未来技术学院2021级本科生杨焕鑫和王齐文为共同第一作者。
PRCV (Chinese Conference on Pattern Recognition and Computer Vision) 是中国计算机学会(CCF)推荐C类会议,由中国自动化学会、中国图象图形学学会、中国人工智能学会和中国计算机学会联合主办,新疆大学承办。
该论文聚焦于手写公式识别任务(HMER),提出了一个可即插即用的模块,为当今的主流基于编码器-解码器的框架引入了一个频域信息感知分支(称为MFH),并对不同的baseline表现出了稳定的识别精度提升。具体而言,MFH采用二维分块DCT变换提取数学公式的频域信息,并专注于保留和提取高频部分的特征,结合高频信息能表征图像细节和显著变化部分的特点,来为网络识别二维公式的复杂结构提供辅助,也避免了复杂的网络结构设计。
具体而言,MFH采用二维分块DCT变换提取数学公式的频域信息,并专注于保留和提取高频部分的特征,结合高频信息能表征图像细节和显著变化部分的特点,来为网络识别二维公式的复杂结构提供辅助,也避免了复杂的网络结构设计。
大量实验表明本文方法的泛化性,以及在复杂结构公式识别上对目前方法识别性能的显著提升。由于MFH的即插即用性,可以很容易地将其插入到不同的框架中进行实验验证,与现有的baseline模型在CROHME的三个经典数据集上进行比较。为了保持公平,本文根据以前的方法是否实现了数据增强,将其分为两类,实验具体结果如下表:
同时,为了进一步证明频域信息尤其是高频信息捕捉二维复杂结构信息的有效性,本文依据公式标签长度将测试集划分成了三个难度区间,二维结构越复杂,对应公式一般越长、识别越难,本文方法应该在这些公式的识别上更具有优势。以下是实验结果,在长度大于30的公式识别上,本文提出的频域分析方法相较于baseline有明显的提升,证明该方法对于复杂二维公式理解起到了辅助作用。
杨焕鑫和王齐文同学自大二开始加入实验室学习在团队老师的指导下系统学习了和OCR相关的知识,并积极同组内博士学长交流、请教。在项目一年时间内,杨焕鑫和王齐文同学完成了方法构建、实验验证和论文完善工作,最终该篇论文被PRCV 2024接收并录取为“口头报告”论文。祝贺杨焕鑫和王齐文同学!
编辑|杨焕鑫
审核|罗琪頔