Hi-SAM: Marrying Segment Anything Model for
Hierarchical Text Segmentation
TPAMI 2024
文章介绍了Hi-SAM,一种利用SAM进行多层次文本分割的统一模型。Hi-SAM 在四个层次的分割上表现出色,包括像素级文本、单词、文本行和段落,同时还能实现布局分析。首先通过参数高效的微调方法将 SAM 转变为高质量的像素级文本分割模型SAM-TS。使用这个SAM-TS模型迭代生成 HierText 数据集中像素级文本标签。随后,基于SAM-TS架构设计了端到端的多层次文本分割模型Hi-SAM,Hi-SAM支持AMG和PS两种推理模式,实验结果表明,SAM-TS模型在Total-Text上达到了像素级文本分割的最佳性能;与之前的多层次检测和布局分析模型相比,Hi-SAM在HierText上取得了显著提升。
论文链接
https://arxiv.org/abs/2401.17904v2
Overview
分层文本分割将文本视为唯一的前景。首先对像素级的文本掩码进行分割,然后从它们中采样点,以提示模型随后生成单词、文本行和段落掩码。通过一种参数高效的微调方法,将SAM转化为一个高质量的像素级文本分割模型SAM-TS。
训练过程采用了一种迭代策略,首先使用少量手动标注的数据在 HierText上训练 SAM-TS,然后利用训练好的 SAM-TS 以最小的人工干预来标注 HierText 中额外的像素级文本。
Experiments
与 Unified Detector 相比,论文方法在单词级别、文本行级别和布局分析的 PQ 和 F 分数方面取得了显著改进。例如Hi-SAM-H 在单词级别比 UD 高出 15.36% 的 PQ 和 20.43% 的 F 分数,在文本行级别的单词分组方面比 UD 高出 5.41% 和 6.16% 的 F 分数,在段落级别布局分析中比 UD 高出 7.48% 和 9.49% 的 F 分数。
Generate Like Experts: Multi-Stage Font Generation
by Incorporating Font Transfer Process into Diffusion Model
CVPR2024
文章介绍了一种新的少样本字体生成(Few-shot Font Generation)方法,称为MSD-Font(Multi-Staged Diffusion),它通过将字体迁移过程整合到扩散模型中,实现了多阶段字体生成。这种方法模仿专家设计师的手动字体设计过程,将字体生成分为三个阶段:结构构建、字体迁移和字体细化。MSD-Font框架采用双网络方法,以提高生成字体图像的质量和细节。实验结果表明,该方法在FFG任务上的性能优于现有技术。
论文链接
https://ieeexplore.ieee.org/document/10655134
Framework
从整体来说,本文的3阶段扩散模型,等价于训练了一个风格转换的生成模型,训练了2个U-Net预测网络,分别是源字体和目标字体的噪音预测。在训练推理过程中,交叉使用,实现了风格的转换,传统的DDPM则是单纯实现生成。
Experiment
在小样本字体生成任务上与现有SOTA方法进行定量比较,MSD-Font方法的效果实现最佳。
VISRAG: VISION-BASED RETRIEVAL-AUGMENTED
GENERATION ON MULTI-MODALITY DOCUMENTS
arXiv2024
传统RAG大多依赖文本信息,无法充分利用视觉信息,而真实文档数据通常以多模态形式出现,因此传统RAG难以很好处理。文章介绍了VisRAG,通过建立基于视觉-语言模型(VLM)的RAG框架,直接将文档作为图像嵌入并进行检索,来增强VLM的生成效果,从而最大限度地保留和利用原始文档中的数据信息,消除了在文档解析过程中引入的信息损失。实验表明,VisRAG在检索和生成阶段均优于传统的RAG,整体性能较传统RAG提高了25%至39%。
论文链接
https://arxiv.org/abs/2410.10594v1
Framework
传统基于文本的 RAG (TextRAG) 依赖于解析的文本进行检索和生成,从而在多模态文档中丢失视觉信息。我们基于视觉的 RAG (VisRAG) 采用基于 VLM 的检索器和生成器来直接处理文档页面的图像,从而保留原始页面中的所有信息。
Experiment
VisRAG在检索任务上的表现较好,尤其在一些域外数据集上的提升明显。此外,在生成阶段使用VisRAG-Ret检索也提高了模型根据查询和检索到的文档生成答案的准确性。特别是能够同时接收文本和多图视觉信息的VLM。
写作总结
论文2作者首先从字体设计的重要性和手动设计字体的挑战出发,进而分析了少样本字体生成(FFG)任务的挑战和现有技术的局限性。作者的目标是提出一种创新的方法,通过将字体生成过程分解为结构构建、字体转换和细节优化三个阶段,并利用扩散模型来实现这一多阶段生成过程。文章中,作者详细描述了如何设计双网络方法来处理不同阶段的不同行为,最终构建了MSD-Font字体生成框架。
论文3结构清晰,首先开门见山提出了传统RAG的局限和不足,并用实验结果作证了完全基于视觉语言模型的 RAG框架的有效性;接着按照检索和生成两个模块的顺序依次详细介绍了整体框架、构建的多模态文档RAG的基准;最后使用了详细的实验来证明各个模块的必要性和文章提出的RAG框架的意义。
The End
VLRLab
分享者:宋家俊 卢瑶 匡嚞玢
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场