上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

文摘 2024-09-26 21:23 湖北

今天的论文分享了位置森林Transformer，SPECULATIVE RAG以及一种可拼接神经网络。

PosFormer: Recognizing Complex Handwritten

Mathematical Expression with Position Forest Transformer

ECCV2024

本文提出了一种有效的位置森林transformer（PosFormer），通过向基于序列的方法中添加位置理解组件，用于手写数学表达式识别（HMER）。对于每个数学表达式，首先将其编码为无需额外注释的森林结构，然后解析其在森林中的嵌套层次和相对位置。通过优化位置识别任务以辅助HMER，PosFormer明确地实现了在复杂和嵌套数学表达式中的位置感知符号级特征表示学习。大量实验验证了PosFormer在推理过程中不引入额外延迟或计算成本的情况下，其性能优越性。这突显了在基于序列的方法中明确建模表达式位置关系的重要性。

论文链接

https://arxiv.org/pdf/2407.07764v1

Overview

PosFormer优化了两个任务：表情识别和位置识别。前者采用并行线性预测进行符号识别;后者将 LaTeX 序列编码为位置森林结构，并解码每个符号的嵌套级别和相对位置，以帮助进行位置感知符号级特征表示学习。

Experiments

PosFormer 在 CROHME 14/16/19 测试集上分别比之前的 SOTA 结果高出 3.19%、4.79% 和 5.88%。使用规模增强时，PosFormer 会进一步刷新识别结果，在 ExpRate 指标中实现 2.03%、1.22% 和 2.00% 的增益。

Speculative RAG: Enhancing Retrieval AugmentedGeneration through Drafting

arXiv2024

文章提出了框架SPECULATIVE RAG，该方法采用了分而治之的策略，先使用较小的专家语言模型快速生成多个答案草案，然后由较大的通用语言模型评估这些草案，并选择最佳草案作为回答。这种方法不仅能减轻知识密集型任务上长期上下文中潜在的位置偏差，还能加快RAG速度。实验证明，SPECULATIVE RAG 在在TriviaQA、musque、PubHealth和ARC-Challenge基准测试中以更低的延迟实现了最先进的性能。与PubHealth上的传统RAG系统相比，它显著提高了准确率高达12.97%，同时减少了51%的延迟。

论文链接

https://arxiv.org/pdf/2407.08223v1

Framework

不同 RAG 方法的图示。给定一个知识密集型查询 Q 和检索到的文档，（a）标准 RAG 将所有文档合并到提示中，增加了输入长度并减慢了推理速度;（b）自反射 RAG需要对通用语言模型进行专门的指令调整，以生成用于自我反射的特定标签;（c）校正 RAG使用外部检索评估器来提高文档质量，只关注上下文信息，而不增强推理能力;（d） SPECULATIVE RAG 利用较大的通用 LM 来有效地验证由较小的专业 LM 并行生成的多个 RAG 草图。每个草图都是从检索到的文档的不同子集生成的，提供了对证据的不同观点，同时最大限度地减少了每个草图的输入令牌数量。

Experiment

实验结果表明，SPECULATIVE RAG 在所有四个基准中始终优于所有基线。特别是，MVerifier-8x7B + MDrafter-7B 在 TriviaQA 上比 Mixtral-Instruct8x7B 高出 0.33%，在 MuSiQue 上高出 2.15%，在 PubHealth 上高出 12.97%，在 ARC-Challenge 上高出 2.14%。在具有可比数量的指令调整参数的情况下，MVerifier-7B + MDrafter-7B 的性能优于所有自反射和校正 RAG 方法，并且在大多数情况下，单独的 MDrafter 可以超过这些基线。

Stitchable Neural Network

CVPR2023

公开的模型库包含大量强大的预训练模型家族（例如Swin和DeiT），这些模型对深度学习的成功贡献重大。每个模型家族均包含不同规模的预训练模型（例如DeiT-Ti、DeiT-S和DeiT-B）。在运行时高效地组装这些现成模型，可以实现动态的精度与效率权衡。为此，提出了可拼接神经网络（Stitchable Neural Networks, SN-Net），这是一种新颖、可扩展且高效的模型部署框架。给定一组预先训练好的神经网络（称为锚点），该框架能够以低成本生成多个具有不同复杂性和性能权衡的网络。

论文链接

https://arxiv.org/pdf/2302.06586v3

Framework

Stitchable Neural Network的图示，其中 DeiT 的三个预训练变体与简单的拼接层（1 × 1 个卷积）连接。在两个模型之间的相邻块之间共享相同的拼接层。除了基本的锚点模型外，还通过拼接复杂度上最近的锚点对来获得许多子网络，例如 DeiT-Ti 和 DeiT-S（蓝线）、DeiT-S 和 DeiT-B（绿线）。

Experiment

将 “Ti-S” 表示为以 DeiT-Ti/S 为锚点的针迹，将 “S-B” 表示为以 DeiTS/B 为锚点的针迹。实验结果如表 1 所示。正如它所表明的，与单独训练的 “S-B” 针迹相比，SN-Net 实现了更好的性能。总体而言，单个 SN-Net 可以涵盖广泛的准确性-效率权衡，同时通过从头开始训练的模型实现有竞争力的性能。

写作总结

论文1利用图例更直观地表示方法（Position Forest Coding的方法描述以及Attention的可视化以展示IAC的有效性）。主图中突出展示方法的Novelty，缩减其他细节。
Speculative RAG这篇文章首先介绍了当前RAG方法的分类，指出了目前方法的缺点，并针对这些缺点说明了模型框架的优势与结构具体组成，展示了对应的实验与分析。文章思路结构清晰，客观且有条理地介绍了模型的优势和技术细节。但是本文在说明检索速度的实验分析上仅仅与标准RAG比较，缺乏与其他RAG方法的对比，使得实验结果缺少说服力。
论文3的Fig1画得很好，直观。着重强调了本文和类似工作的区别，凸显新颖。并且各种消融实验非常细致，容易follow和理解。

The End

VLRLab

分享者：张子杨匡嚞玢管一然

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉