ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

创业 2024-08-28 08:22 北京

本文简要介绍被ECCV 2024录用的论文《PosFormer: Recognizing Complex Handwritten Mathematical Expressions with Position Forest Transformer》。相比主流的基于树和基于序列的方法，PosFormer提出了一种有效的位置森林变换器用于手写数学表达式识别，为基于序列的方法增加了位置理解组件。
该方法将每个数学表达式编码为森林结构而无需额外的标注，然后解析其在森林中的嵌套层次和相对位置。通过优化位置识别任务来辅助表达式识别，PosFormer 在复杂和嵌套的数学表达式中显式地实现了位置感知的符号级特征表示学习。
此外，该论文提出了一种隐式注意力校正模块，以在基于序列的解码器架构中准确捕获数学表达式的注意力。实验表明，PosFormer在多个基准数据集上均表现出色，显著优于现有方法，且没有额外的延迟或计算成本。

论文标题：
PosFormer: Recognizing Complex Handwritten Mathematical Expressions with Position Forest Transformer
论文地址：
https://arxiv.org/abs/2407.07764
代码地址：
https://github.com/SJTU-DeepVisionLab/PosFormer

一、Introduction

手写数学表达式作为语言和符号之间的桥梁，在数学、物理和化学等领域中很常见。相应的任务，即手写数学表达式识别（HMER），旨在准确地将表达式图像转换为 LaTeX 序列。这个任务在在线教育、手稿数字化和自动评分等人机交互场景中有广泛应用。近期，我们注意到多模态大语言模型在文本图像领域具有泛化性高的性能，但是大多数大模型在手写数学表达式识别上还不够理想参考MultimodalOCR，如下图红框所示：

这说明当前识别手写数学表达式仍比较困难，具体地，其主要面临着两大挑战：符号间关系的复杂性[1]和手写输入的多样性。

传统方法通常涉及两步流程：识别单个符号并随后根据语法规则进行校正。近年来，随着深度学习的发展，开发了两种主流方法以提高识别性能：基于树的方法和基于序列的方法。具体来说，基于树的方法遵循 LaTeX 的语法规则，将每个数学表达式建模为树结构[2][3]，然后输出基于语法树的完整三元组（父节点、子节点、父子关系）的序列，并将其解码为 LaTeX 序列。这些方法由于表达式中树结构的多样性不足，表现出较低的准确性和较差的泛化能力。基于序列的方法将 HMER 建模为端到端的图像到序列任务[4]。它们将数学表达式视为 LaTeX 序列，采用基于注意力的编码器-解码器架构以自回归方式预测每个符号。然而，这些方法仅隐式地学习符号之间的结构关系，在处理复杂和嵌套的数学表达式时显得不足。

二、Methodology

如图1所示，位置森林变换器（PosFormer）由 DenseNet[5]、位置森林和表达式识别头组成。首先，DenseNet从输入图像中提取二维视觉特征。这些特征随后被送入基于注意力的Transformer解码器以获取具有辨别力的符号特征。然后使用并行线性头来识别 LaTeX 表达式。

为了促进位置感知的符号级特征表示学习，在表达式识别的同时引入位置森林进行联合优化。具体来说，这个过程首先将数学表达式的序列编码为标识符集，每个标识符是一个表示其位置信息的字符串。然后使用两个位置森林头分别解析其嵌套层次和相对位置。

2.1 Position Forest

根据 LaTeX 的语法规则，表达式可以分为多个独立或嵌套的子结构，如图2所示，包括上标-下标结构、分数结构、根式结构和特殊运算符结构。在每个子结构内，符号的相对位置关系根据其在图像中的空间位置分为三类：上、下和中。利用这一先验知识，我们将 LaTeX 数学表达式建模为位置森林结构。其构建遵循以下三条规则：

1. 这些子结构按从左到右的顺序进行编码；

2. 每个子结构根据符号之间的相对位置编码成树，其主体为根节点，上部为左节点，下部为右节点；

3. 根据子结构的关系，这些编码的树按顺序或嵌套排列形成位置森林结构。

然后依照上面的规则，我们的编码过程如图3所示，每个符号在森林中被分配一个位置标识符以表示其相对空间位置。对于给定的一个公式图像，其对应的标识符集合被定义为。H、W、T分别为图像高度、图像宽度、序列长度。例如图3中的“2”对应的标识符为：。

考虑到这些标识符的长度不同，我们将标识符填充组织成矩阵，其中每个向量通过非线性层转换为标识符嵌入，最后将符号顺序的绝对位置编码添加到标识符嵌入中。生成公式如下：

这些嵌入向量和主干网络提取的视觉特征（其中）被输入到基于 Transformer 的三层解码器块中。这些块主要由多头注意力（MHA）、隐式注意力校正（IAC，稍后介绍）和前馈网络（FFN）组成，处理这些输入以产生输出特征，用于预测表达式识别（常规分支）和位置识别（我们设计的分支）。

接着，我们将位置识别任务分为两个子任务：嵌套层级预测任务和相对位置预测任务。首先，给定标识符集合，我们需要构造其嵌套层级和相对位置的ground truth。

对于第个标识符，为标识符长度，可以很容易地确定其嵌套层级为，相对位置为。例如，在分析标识符MLLR时，可以推断该符号位于包含三个嵌套级别的子结构中，其相对位置位于最后一个嵌套子结构的下部R。

基于此，

嵌套层级的ground truth被构造：

表示嵌套级别的最大数量。

相对位置的ground truth被构造：

最终，在解码步骤，取，预测当前步骤嵌套层级和相对位置为：

2.2 Implicit Attention Correction

如图4所示, 我们将一些LaTeX 符号定义为结构符号：

在图像中没有实体，用于描述实体符号之间的位置和层次关系。

在解码结构符号时，覆盖问题（即过度解析和欠解析）限制了识别能力。为了解决这些问题，CoMER[6] 通过减去所有前一步的注意力来细化当前解码步骤的注意力权重。然而，在解码一些结构符号时，我们观察到模型将注意力分配到尚未解析的区域，甚至是整个图像。在减法操作之后，这种机制会导致依赖于过去对齐信息的后续解码步骤中校正注意力的不准确性。

为此，我们提出了一种简单而有效的校正解决方案，通过引入零注意力作为我们的校正项。具体来说，当一个实体符号被解码时，我们将与前面的结构符号相关的注意力权重重置为零。这很容易解释：当我们鼓励模型对解码实体符号产生精确的注意力时，只要从已经解析的实体符号中减去这些注意力权重就可以了，因为数学表达式图像上只存在实体符号。因此，注意力校正过程如下：

设为第层解码器产生的注意权重（实验中为），表示这些结构符号的集合，我们提出一个指示函数来引入相应的修正项，

表示Hadamard积，表示沿通道的拼接操作。

2.3 Loss Function

最终模型在多任务设置下进行端到端训练，其目标是：

其中表示groundtruth LaTeX序列，为groundtruth嵌套层级，表示groundtruth相对位置。

, , 分别表示三个任务的预测分布。最后，整体的训练损失总结为：

和是损失系数，默认设置为1。

三、Experimental Results

首先，我们在单行数据集CROHME上进行实验。具体来说，为了公平比较，我们提供了 PosFormer 有和没有数据增强的性能结果。我们强调，一些先前的先进方法使用的数据增强方法没有开源，因此我们只在都没有数据增强的情况下与这些方法进行对比。

其次，我们还在大规模单行数据集HME100k上进行了实验，这里的对比都没有使用数据增强。

与单行数据集相比，多行手写数学表达式数据集M2E包含更多的复杂结构和长序列图像。为了证明我们模型的有效性和鲁棒性，我们在该数据集上与之前的最先进方法进行了比较。

我们进行消融实验，展示了PosFormer 的两个组件——位置森林（PF）和隐式注意力校正（IAC）带来的性能提升。

位置森林（PF）可以很容易地封装成一个插件组件。为了证明其鲁棒性和通用性，我们将其扩展到基于 RNN 的方法进行了对比实验。

为了与先前的位置增强工作比较，我们在CROHME上与robustscanner[7]进行了比较。另外，引入语言模型是进一步提高性能的方向，一些 HMER 方法（例如，RLFN[8]）的视觉输出被输入到语言模型[9]中，以利用语言上下文实现识别校正。尽管 PosFormer 是一种不依赖语言的模型，但它仍然实现了 6.25% 的提升。

另外，我们还构建了一个多层嵌套数据集MNE，来测试PosFormer在识别复杂嵌套表达式的能力。N1、N2和N3分别表示嵌套层数为1、2和3的子测试集。

最后，本文展示了隐式注意力校正的可视化例子：

四、Conclusions

相比主流的基于树和基于序列的方法，PosFormer提出了一种全新的角度来考虑手写数学表达式中的位置信息和嵌套关系。本文提出了一种有效的位置森林变换器用于手写数学表达式识别，为基于序列的方法增加了位置理解组件。

该方法将每个数学表达式编码为森林结构而无需额外的标注，然后解析其在森林中的嵌套层次和相对位置。通过优化位置识别任务来辅助表达式识别，PosFormer 在复杂和嵌套的数学表达式中显式地实现了位置感知的符号级特征表示学习。

大量实验验证了 PosFormer 的性能优越性，同时在推理过程中不会引入额外的延迟或计算成本。这凸显了在基于序列的方法中显式建模表达式位置关系的重要性，希望能带来更深远的意义和更深刻的启发。

References

1. Anderson, R.H. Syntax-directed recognition of hand-printed two-dimensional mathematics. In: Symposium on interactive systems for experimental applied mathematics: Proceedings of the Association for Computing Machinery Inc. Symposium. pp. 436–459

2. Yuan, Y., Liu, X., Dikubab, W., Liu, H., Ji, Z., Wu, Z., Bai, X.: Syntax-aware network for handwritten mathematical expression recognition. In: CVPR. pp. 4553-4562.

3. Zhong, S., Song, S., Li, G., Chan, S.H.G.: A tree-based structure-aware transformer decoder for image-to-markup generation. In: ACM MM. p. 5751–576

4. Li, B., Yuan, Y., Liang, D., Liu, X., Ji, Z., Bai, J., Liu, W., Bai, X.: When counting meets hmer: counting-aware network for handwritten mathematical expression recognition. In: ECCV. pp. 197–214

5. Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks. In: CVPR. pp. 4700–4708

Zhao, W., Gao, L.: Comer: Modeling coverage for transformer-based handwritten mathematical expression recognition. In: ECCV. pp. 392–408

6. Yue, X., Kuang, Z., Lin, C., Sun, H., Zhang, W.: Robustscanner: Dynamically enhancing positional clues for robust text recognition. In: ECCV. pp. 135–151

7. Chen, Z., Han, J., Yang, C., Zhou, Y.: Language model is suitable for correction of handwritten mathematical expressions recognition. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing. pp. 4057–4068

8. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V.: Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513466&idx=2&sn=cd405096177e6ee994e459d1d8594313

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉