今天的论文分享了位置森林Transformer,SPECULATIVE RAG以及一种可拼接神经网络。
PosFormer: Recognizing Complex Handwritten
Mathematical Expression with Position Forest Transformer
ECCV2024
本文提出了一种有效的位置森林transformer(PosFormer),通过向基于序列的方法中添加位置理解组件,用于手写数学表达式识别(HMER)。对于每个数学表达式,首先将其编码为无需额外注释的森林结构,然后解析其在森林中的嵌套层次和相对位置。通过优化位置识别任务以辅助HMER,PosFormer明确地实现了在复杂和嵌套数学表达式中的位置感知符号级特征表示学习。大量实验验证了PosFormer在推理过程中不引入额外延迟或计算成本的情况下,其性能优越性。这突显了在基于序列的方法中明确建模表达式位置关系的重要性。
论文链接
https://arxiv.org/pdf/2407.07764v1
Overview
PosFormer优化了两个任务:表情识别和位置识别。前者采用并行线性预测进行符号识别;后者将 LaTeX 序列编码为位置森林结构,并解码每个符号的嵌套级别和相对位置,以帮助进行位置感知符号级特征表示学习。
Experiments
PosFormer 在 CROHME 14/16/19 测试集上分别比之前的 SOTA 结果高出 3.19%、4.79% 和 5.88%。使用规模增强时,PosFormer 会进一步刷新识别结果,在 ExpRate 指标中实现 2.03%、1.22% 和 2.00% 的增益。
Speculative RAG: Enhancing Retrieval AugmentedGeneration through Drafting
arXiv2024
文章提出了框架SPECULATIVE RAG,该方法采用了分而治之的策略,先使用较小的专家语言模型快速生成多个答案草案,然后由较大的通用语言模型评估这些草案,并选择最佳草案作为回答。这种方法不仅能减轻知识密集型任务上长期上下文中潜在的位置偏差,还能加快RAG速度。实验证明,SPECULATIVE RAG 在在TriviaQA、musque、PubHealth和ARC-Challenge基准测试中以更低的延迟实现了最先进的性能。与PubHealth上的传统RAG系统相比,它显著提高了准确率高达12.97%,同时减少了51%的延迟。
论文链接
https://arxiv.org/pdf/2407.08223v1
Framework
不同 RAG 方法的图示。给定一个知识密集型查询 Q 和检索到的文档,(a) 标准 RAG 将所有文档合并到提示中,增加了输入长度并减慢了推理速度;(b) 自反射 RAG需要对通用语言模型进行专门的指令调整,以生成用于自我反射的特定标签;(c) 校正 RAG使用外部检索评估器来提高文档质量,只关注上下文信息,而不增强推理能力;(d) SPECULATIVE RAG 利用较大的通用 LM 来有效地验证由较小的专业 LM 并行生成的多个 RAG 草图。每个草图都是从检索到的文档的不同子集生成的,提供了对证据的不同观点,同时最大限度地减少了每个草图的输入令牌数量。
Experiment
实验结果表明,SPECULATIVE RAG 在所有四个基准中始终优于所有基线。特别是,MVerifier-8x7B + MDrafter-7B 在 TriviaQA 上比 Mixtral-Instruct8x7B 高出 0.33%,在 MuSiQue 上高出 2.15%,在 PubHealth 上高出 12.97%,在 ARC-Challenge 上高出 2.14%。在具有可比数量的指令调整参数的情况下,MVerifier-7B + MDrafter-7B 的性能优于所有自反射和校正 RAG 方法,并且在大多数情况下,单独的 MDrafter 可以超过这些基线。
Stitchable Neural Network
CVPR2023
公开的模型库包含大量强大的预训练模型家族(例如Swin和DeiT),这些模型对深度学习的成功贡献重大。每个模型家族均包含不同规模的预训练模型(例如DeiT-Ti、DeiT-S和DeiT-B)。在运行时高效地组装这些现成模型,可以实现动态的精度与效率权衡。为此,提出了可拼接神经网络(Stitchable Neural Networks, SN-Net),这是一种新颖、可扩展且高效的模型部署框架。给定一组预先训练好的神经网络(称为锚点),该框架能够以低成本生成多个具有不同复杂性和性能权衡的网络。
论文链接
https://arxiv.org/pdf/2302.06586v3
Framework
Stitchable Neural Network的图示,其中 DeiT 的三个预训练变体与简单的拼接层(1 × 1 个卷积)连接。在两个模型之间的相邻块之间共享相同的拼接层。除了基本的锚点模型外,还通过拼接复杂度上最近的锚点对来获得许多子网络,例如 DeiT-Ti 和 DeiT-S(蓝线)、DeiT-S 和 DeiT-B(绿线)。
Experiment
将 “Ti-S” 表示为以 DeiT-Ti/S 为锚点的针迹,将 “S-B” 表示为以 DeiTS/B 为锚点的针迹。实验结果如表 1 所示。正如它所表明的,与单独训练的 “S-B” 针迹相比,SN-Net 实现了更好的性能。总体而言,单个 SN-Net 可以涵盖广泛的准确性-效率权衡,同时通过从头开始训练的模型实现有竞争力的性能。
写作总结
论文1利用图例更直观地表示方法(Position Forest Coding的方法描述以及Attention的可视化以展示IAC的有效性)。主图中突出展示方法的Novelty,缩减其他细节。
Speculative RAG这篇文章首先介绍了当前RAG方法的分类,指出了目前方法的缺点,并针对这些缺点说明了模型框架的优势与结构具体组成,展示了对应的实验与分析。文章思路结构清晰,客观且有条理地介绍了模型的优势和技术细节。但是本文在说明检索速度的实验分析上仅仅与标准RAG比较,缺乏与其他RAG方法的对比,使得实验结果缺少说服力。
论文3的Fig1画得很好,直观。着重强调了本文和类似工作的区别,凸显新颖。并且各种消融实验非常细致,容易follow和理解。
The End
VLRLab
分享者:张子杨 匡嚞玢 管一然
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场