本文简要介绍被ECCV 2024录用的论文《PosFormer: Recognizing Complex Handwritten Mathematical Expressions with Position Forest Transformer》。相比主流的基于树和基于序列的方法,PosFormer提出了一种有效的位置森林变换器用于手写数学表达式识别,为基于序列的方法增加了位置理解组件。 该方法将每个数学表达式编码为森林结构而无需额外的标注,然后解析其在森林中的嵌套层次和相对位置。通过优化位置识别任务来辅助表达式识别,PosFormer 在复杂和嵌套的数学表达式中显式地实现了位置感知的符号级特征表示学习。 此外,该论文提出了一种隐式注意力校正模块,以在基于序列的解码器架构中准确捕获数学表达式的注意力。实验表明,PosFormer在多个基准数据集上均表现出色,显著优于现有方法,且没有额外的延迟或计算成本。
此外,该论文提出了一种隐式注意力校正模块,以在基于序列的解码器架构中准确捕获数学表达式的注意力。实验表明,PosFormer在多个基准数据集上均表现出色,显著优于现有方法,且没有额外的延迟或计算成本。
论文标题:
PosFormer: Recognizing Complex Handwritten Mathematical Expressions with Position Forest Transformer
论文地址:
https://arxiv.org/abs/2407.07764
代码地址:
https://github.com/SJTU-DeepVisionLab/PosFormer
一、Introduction
多模态大语言模型
在文本图像领域具有泛化性高的性能,但是大多数大模型在手写数学表达式识别上还不够理想参考MultimodalOCR,如下图红框所示:这说明当前识别手写数学表达式仍比较困难,具体地,其主要面临着两大挑战:符号间关系的复杂性[1]和手写输入的多样性。
传统方法通常涉及两步流程:识别单个符号并随后根据语法规则进行校正。近年来,随着深度学习的发展,开发了两种主流方法以提高识别性能:基于树的方法和基于序列的方法。具体来说,基于树的方法遵循 LaTeX 的语法规则,将每个数学表达式建模为树结构[2][3],然后输出基于语法树的完整三元组(父节点、子节点、父子关系)的序列,并将其解码为 LaTeX 序列。这些方法由于表达式中树结构的多样性不足,表现出较低的准确性和较差的泛化能力。基于序列的方法将 HMER 建模为端到端的图像到序列任务[4]。它们将数学表达式视为 LaTeX 序列,采用基于注意力的编码器-解码器架构以自回归方式预测每个符号。然而,这些方法仅隐式地学习符号之间的结构关系,在处理复杂和嵌套的数学表达式时显得不足。
二、Methodology
如图1所示,位置森林变换器(PosFormer)由 DenseNet[5]、位置森林和表达式识别头组成。首先,DenseNet从输入图像中提取二维视觉特征。这些特征随后被送入基于注意力的Transformer解码器以获取具有辨别力的符号特征。然后使用并行线性头来识别 LaTeX 表达式。
为了促进位置感知的符号级特征表示学习,在表达式识别的同时引入位置森林进行联合优化。具体来说,这个过程首先将数学表达式的序列编码为标识符集,每个标识符是一个表示其位置信息的字符串。然后使用两个位置森林头分别解析其嵌套层次和相对位置。
2.1 Position Forest
根据 LaTeX 的语法规则,表达式可以分为多个独立或嵌套的子结构,如图2所示,包括上标-下标结构、分数结构、根式结构和特殊运算符结构。在每个子结构内,符号的相对位置关系根据其在图像中的空间位置分为三类:上、下和 中。利用这一先验知识,我们将 LaTeX 数学表达式建模为位置森林结构。其构建遵循以下三条规则:
1. 这些子结构按从左到右的顺序进行编码;
2. 每个子结构根据符号之间的相对位置编码成树,其主体为根节点,上部为左节点,下部为右节点;
考虑到这些标识符的长度不同,我们将标识符填充组织成矩阵,其中每个向量通过非线性层转换为标识符嵌入,最后将符号顺序的绝对位置编码添加到标识符嵌入中。生成公式如下:
R
。嵌套层级的ground truth被构造:
2.2 Implicit Attention Correction
如图4所示, 我们将一些LaTeX 符号定义为结构符号:
在图像中没有实体,用于描述实体符号之间的位置和层次关系。
在解码结构符号时,覆盖问题(即过度解析和欠解析)限制了识别能力。为了解决这些问题,CoMER[6] 通过减去所有前一步的注意力来细化当前解码步骤的注意力权重。然而,在解码一些结构符号时,我们观察到模型将注意力分配到尚未解析的区域,甚至是整个图像。在减法操作之后,这种机制会导致依赖于过去对齐信息的后续解码步骤中校正注意力的不准确性。
为此,我们提出了一种简单而有效的校正解决方案,通过引入零注意力作为我们的校正项。具体来说,当一个实体符号被解码时,我们将与前面的结构符号相关的注意力权重重置为零。这很容易解释:当我们鼓励模型对解码实体符号产生精确的注意力时,只要从已经解析的实体符号中减去这些注意力权重就可以了,因为数学表达式图像上只存在实体符号。因此,注意力校正过程如下:
2.3 Loss Function
三、Experimental Results
首先,我们在单行数据集CROHME
上进行实验。具体来说,为了公平比较,我们提供了 PosFormer 有和没有数据增强的性能结果。我们强调,一些先前的先进方法使用的数据增强方法没有开源,因此我们只在都没有数据增强的情况下与这些方法进行对比。
大规模单行数据集HME100k
上进行了实验,这里的对比都没有使用数据增强。多层嵌套数据集MNE
,来测试PosFormer在识别复杂嵌套表达式的能力。N1、N2和N3分别表示嵌套层数为1、2和3的子测试集。四、Conclusions
相比主流的基于树和基于序列的方法,PosFormer提出了一种全新的角度来考虑手写数学表达式中的位置信息和嵌套关系。 本文提出了一种有效的位置森林变换器用于手写数学表达式识别,为基于序列的方法增加了位置理解组件。
该方法将每个数学表达式编码为森林结构而无需额外的标注,然后解析其在森林中的嵌套层次和相对位置。通过优化位置识别任务来辅助表达式识别,PosFormer 在复杂和嵌套的数学表达式中显式地实现了位置感知的符号级特征表示学习。
大量实验验证了 PosFormer 的性能优越性,同时在推理过程中不会引入额外的延迟或计算成本。这凸显了在基于序列的方法中显式建模表达式位置关系的重要性,希望能带来更深远的意义和更深刻的启发。
References
1. Anderson, R.H. Syntax-directed recognition of hand-printed two-dimensional mathematics. In: Symposium on interactive systems for experimental applied mathematics: Proceedings of the Association for Computing Machinery Inc. Symposium. pp. 436–459
2. Yuan, Y., Liu, X., Dikubab, W., Liu, H., Ji, Z., Wu, Z., Bai, X.: Syntax-aware network for handwritten mathematical expression recognition. In: CVPR. pp. 4553-4562.
3. Zhong, S., Song, S., Li, G., Chan, S.H.G.: A tree-based structure-aware transformer decoder for image-to-markup generation. In: ACM MM. p. 5751–576
4. Li, B., Yuan, Y., Liang, D., Liu, X., Ji, Z., Bai, J., Liu, W., Bai, X.: When counting meets hmer: counting-aware network for handwritten mathematical expression recognition. In: ECCV. pp. 197–214
5. Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks. In: CVPR. pp. 4700–4708
Zhao, W., Gao, L.: Comer: Modeling coverage for transformer-based handwritten mathematical expression recognition. In: ECCV. pp. 392–408
6. Yue, X., Kuang, Z., Lin, C., Sun, H., Zhang, W.: Robustscanner: Dynamically enhancing positional clues for robust text recognition. In: ECCV. pp. 135–151
7. Chen, Z., Han, J., Yang, C., Zhou, Y.: Language model is suitable for correction of handwritten mathematical expressions recognition. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. pp. 4057–4068
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。