Bridging the Gap Between End-to-End
and Two-Step Text Spotting
CVPR2024
虽然端到端文本识别有效地缓解了传统两步方法中出现的错误累积和次优性能问题,但由于其卓越的模块化,两步方法在实际中仍然受到青睐。论文介绍了桥接文本识别,这是一种新颖的方法,它解决了两阶段方法中的错误累积和次优性能问题,同时保持模块化。为了实现这一目标,采用独立开发和训练的训练有素的检测器和识别器,然后锁定它们的参数以保留它们已经获得的能力。随后引入了一个 Bridge,它通过零初始化的神经网络连接锁定的检测器和识别器。此外,由于固定的检测器和识别器无法自然地获得端到端的优化特征,论文采用 Adapter 优化器来促进对特征的高效学习。大量的实验证明了所提出方法的有效性。
论文链接
https://arxiv.org/pdf/2404.04624v1
Overview
Bridging Text Spotting采用独立训练的检测器和识别器,然后锁定参数以保留检测和识别能力。随后引入了一个 Bridge,它通过零初始化的神经网络连接锁定的检测器和识别器。由于固定的检测器和识别器无法自然地获得端到端的优化特征,论文采用 Adapter 优化器来促进对特征的高效学习。
Experiments
在本实验中,使用 DPText-DETR 作为检测器,使用 DiG 作为识别器得到DG-Bridge Spotter,与现有端到端spotting方法比较,DG-Bridge Spotter取得了最佳性能,特别是在 'None' 词典的spotting情况下。证明了方法的有效性。
SHOW-O: ONE SINGLE TRANSFORMER TO UNIFY
MULTIMODAL UNDERSTANDING AND GENERATIONs
arXiv2024
文章主要提出了一个能够同时处理多模态理解和生成任务的统一架构,主要的创新之处在于将自回归和(离散)扩散建模融合在一起,以适应各种不同和混合模态的输入和输出。作为一个统一模型,在多模态理解和生成基准中表现出与具有同等或更多参数的个体基线模型相当甚至更好的性能。
论文链接
https://arxiv.org/pdf/2408.12528v1
Framework
图中展示了 Show-o 与各个领域的现有代表性方法之间的模型特征比较。可以观察到,Show-o 是一个统一的模型,它灵活地涉及现有的先进技术,以全面解决多模态理解和生成问题。
Experiment
实验结果显示了 Show-o 在公共基准测试中的多模态理解能力,例如图像字幕和视觉问答任务。Show-o 在所有评估指标上都表现出与基线 LLaVA-v1.5-Phi-1.5 相当的性能,基线 LLaVA-v1.5 专门用于多模态理解并进行了优化。这证明了Show-o的框架在将多模态理解和生成统一在一个转换器中的巨大潜力。
PYRAMIDAL FLOW MATCHING FOR EFFICIENT
VIDEOGENERATIVE MODELING
arXiv2024
文章提出了一种高效的视频生成模型,称为“金字塔流匹配”算法。通过重新解释生成过程为一系列金字塔阶段,该方法仅在最后阶段操作全分辨率数据,大幅减少计算复杂度。作者设计了一种时间金字塔的自回归视频生成机制,通过压缩高分辨率历史数据,进一步提高了训练效率。实验结果显示,该模型在768p分辨率和24帧率下,可在20.7k A100 GPU小时内生成高质量的5至10秒视频。该方法相较于传统级联架构提升了生成灵活性和可扩展性,支持端到端优化。
论文链接
https://arxiv.org/pdf/2410.05954v1
Framework
金字塔流匹配的一个激励性示例:(a) 现有的扩散模型以全分辨率运行,在非常嘈杂的潜在物上花费大量计算。(b) 论文方法利用流匹配的灵活性在不同分辨率的潜伏之间进行插值。这允许以更好的计算效率同时生成和解压缩视觉内容。黑色箭头表示降噪轨迹,蓝色箭头表示时间条件。
Experiment
总体而言,论文方法在两个基准测试中超越了所有比较的开源视频生成基线。即使训练中只有可公开访问的视频数据,它也能实现与使用更大的专有数据进行训练的商用模型相当的性能,如 Kling和 Gen-3 Alpha。
写作总结
论文1别出心裁的集成了二阶段文本识别的模块化优势和端到端文本识别的高效,从而实现了text spotting的SOTA结果。并且写作思路清晰,以二阶段文本spotting存在的问题为导向,提出Bridge解决方法并通过实验验证有效性。
统一模型,应该既能做生成,也能做理解,生成和理解的能力相辅相成。在图片理解任务中连续表征的效果很好,说明CLIP预训练效果出色。
论文3涉及复杂的数学模型和技术实现,语言却简明扼要,避免了冗长或晦涩的表达。作者不仅强调了该方法的优势,也坦诚地指出了该方法可能的局限性,并提出了未来改进的方向。
The End
VLRLab
分享者:罗琪頔 周鑫 张凯乐
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场