前沿论文分享20240626

文摘   2024-06-26 00:11   湖北  

    今天的论文分享了大模型Ovis框架,改进的条件扩散模型Kaleido和视觉文本生成方法Anytext。

    快来和小编一起学习吧!

Ovis: Structural Embedding Alignment for Multimodal Large Language Model



arXiv2024



    文章首先提出现有基于connector(例如MLP)的多模态大模型视觉与文本的结构化embedding方式具有显著不同,这可能导致多模态信息的不对齐。接着提出来一种使用一个可学习的visual embedding table和概率特征进行视觉embedding。这一方法虽然简单但是能够使得视觉表征具备类似文本的结构化信息,从而增强多模态大模型的性能。最后,实验表明Ovis在通用数据集和专门数据集都取得领先性能。

论文链接



https://arxiv.org/pdf/2405.20797v2

Overview


    图 (a) 显示了 Ovis 的整个架构,包含两个用于视觉和文本输入的嵌入表。图 (b) 说明了如何将视觉patch映射到概率token。图 (c) 演示了概率token有助于从嵌入表中选择多个嵌入并输出它们的加权组合。

Experiments



    在多模态基准上与流行的开源MLLM 以及GPT4V,Gemini进行比较。实验结果显示,Ovis架构在一些基准上取得了最佳性能,从而证明了有效性。

Kaleido Diffusion: Improving Conditional Diffusion Models 

with Autoregressive Latent Modeling



arXiv2024



    这篇文章主要介绍了一种名为Kaleido的新方法,用于改进条件扩散模型在生成图像时的表现。传统的扩散模型在根据文本描述生成高质量图像方面已经取得了很大成功,但其生成的样本多样性有时较为有限。Kaleido通过引入自回归潜变量建模的方式,有效地提升了生成样本的多样性,即使在高分类器无指导权重的情况下也能保持图像质量。该方法结合了离散编码的图像抽象表示,例如详细描述、检测边界框和抽象视觉标记,使得生成过程更加灵活和可控。这些创新使Kaleido不仅在图像多样性上表现出色,同时保持了高质量的生成图像,具备了解释性和可操作性,为图像生成领域带来了新的技术突破和应用潜力。

论文链接



https://arxiv.org/pdf/2405.21048v1

Framework


    Kaleido 由两个主要组件组成:一个 AR 模型,它生成潜在标记作为抽象表示,以及一个潜在增强扩散模型,它基于这些潜在标记和原始条件迭代合成图像。

Experiments



   实验结果表明,与baseline相比,Kaleido 始终如一地增强了样本的多样性,而不会影响它们在不同 CFG 中的质量,FID 和 Recall 的普遍改善证明了这一点。

ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITIN



ICLR2024



    尽管目前的图像合成技术非常先进,能够生成高保真度的图像,但当聚焦于生成图像中的文本区域时,仍然有很大的挑战,合成的文本通常包含模糊、不可读或不正确的字符,使得视觉文本生成成为该领域最具挑战性的问题之一。本文提出了AnyText来解决视觉文本生成问题,包括一个扩散管道,它有两个主要元素:一个辅助潜在模块和一个文本嵌入模块。前者使用文本字形、位置和遮罩图像等输入来生成用于文本生成或编辑的潜在特征。后者采用OCR模型对笔画数据进行编码作为嵌入,该嵌入与来自标记器的图像标题嵌入混合,生成与背景无缝集成的文本。在进行了广泛的评估实验后,本文的方法在性能上明显优于所有其他方法。

论文链接



https://arxiv.org/pdf/2311.03054v5

Framework


   AnyText 的框架包括文本控制扩散pipeline、辅助潜在模块、文本嵌入模块和文本感知损失。

Experiment



    实验结果表明,AnyText与其他方法相比在中英文视觉文本生成方面有更佳性能。

写作借鉴



  1. 写作需要详略得当,Ovis论文首先高度凝练概括MLLM视觉与文本嵌入的不一致,进一步概述方法和主要结论。而论文由于方法需要的构建数据集和实验细节本文则选择放入附录。

  2. Kailedo Diffusion 论文整体逻辑性强,从一个简单的动机“生成模型在高CFG引导时模式坍塌”出发,通过公式推导、Toy dataset可视化验证、模型最终训练结果验证强有力的说明了方法的改进效果。模式选择是文本的另一重要考量,本文用大量的结果说明了所提出方法生成的多样性和可编辑性。

  3. AnyText 论文最开始先介绍要解决的任务和问题,再针对每个问题提出本文的方法。论文展示可视化结果,与通用文生图模型和专注于解决视觉文本生成的模型分别对比突出优势。


The End




VLRLab


分享者:尹亮 朱翰绅 张朔

编辑:罗琪頔

审核:伏凌


免责声明:

(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

(2)本文观点不代表本公众号立场


VLRLab学习屋
发布华中科技大学VLRLab实验室的新闻资讯与动态
 最新文章