前沿论文分享20240626

文摘 2024-06-26 00:11 湖北

今天的论文分享了大模型Ovis框架，改进的条件扩散模型Kaleido和视觉文本生成方法Anytext。

快来和小编一起学习吧！

Ovis: Structural Embedding Alignment for Multimodal Large Language Model

arXiv2024

文章首先提出现有基于connector(例如MLP)的多模态大模型视觉与文本的结构化embedding方式具有显著不同，这可能导致多模态信息的不对齐。接着提出来一种使用一个可学习的visual embedding table和概率特征进行视觉embedding。这一方法虽然简单但是能够使得视觉表征具备类似文本的结构化信息，从而增强多模态大模型的性能。最后，实验表明Ovis在通用数据集和专门数据集都取得领先性能。

论文链接

https://arxiv.org/pdf/2405.20797v2

Overview

图（a）显示了 Ovis 的整个架构，包含两个用于视觉和文本输入的嵌入表。图（b）说明了如何将视觉patch映射到概率token。图（c）演示了概率token有助于从嵌入表中选择多个嵌入并输出它们的加权组合。

Experiments

在多模态基准上与流行的开源MLLM 以及GPT4V,Gemini进行比较。实验结果显示，Ovis架构在一些基准上取得了最佳性能，从而证明了有效性。

Kaleido Diffusion: Improving Conditional Diffusion Models

with Autoregressive Latent Modeling

arXiv2024

这篇文章主要介绍了一种名为Kaleido的新方法，用于改进条件扩散模型在生成图像时的表现。传统的扩散模型在根据文本描述生成高质量图像方面已经取得了很大成功，但其生成的样本多样性有时较为有限。Kaleido通过引入自回归潜变量建模的方式，有效地提升了生成样本的多样性，即使在高分类器无指导权重的情况下也能保持图像质量。该方法结合了离散编码的图像抽象表示，例如详细描述、检测边界框和抽象视觉标记，使得生成过程更加灵活和可控。这些创新使Kaleido不仅在图像多样性上表现出色，同时保持了高质量的生成图像，具备了解释性和可操作性，为图像生成领域带来了新的技术突破和应用潜力。

论文链接

https://arxiv.org/pdf/2405.21048v1

Framework

Kaleido 由两个主要组件组成：一个 AR 模型，它生成潜在标记作为抽象表示，以及一个潜在增强扩散模型，它基于这些潜在标记和原始条件迭代合成图像。

Experiments

实验结果表明，与baseline相比，Kaleido 始终如一地增强了样本的多样性，而不会影响它们在不同 CFG 中的质量，FID 和 Recall 的普遍改善证明了这一点。

ANYTEXT: MULTILINGUAL VISUAL TEXT GENERATION AND EDITIN

ICLR2024

尽管目前的图像合成技术非常先进，能够生成高保真度的图像，但当聚焦于生成图像中的文本区域时，仍然有很大的挑战，合成的文本通常包含模糊、不可读或不正确的字符，使得视觉文本生成成为该领域最具挑战性的问题之一。本文提出了AnyText来解决视觉文本生成问题，包括一个扩散管道，它有两个主要元素:一个辅助潜在模块和一个文本嵌入模块。前者使用文本字形、位置和遮罩图像等输入来生成用于文本生成或编辑的潜在特征。后者采用OCR模型对笔画数据进行编码作为嵌入，该嵌入与来自标记器的图像标题嵌入混合，生成与背景无缝集成的文本。在进行了广泛的评估实验后，本文的方法在性能上明显优于所有其他方法。

论文链接

https://arxiv.org/pdf/2311.03054v5

Framework

AnyText 的框架包括文本控制扩散pipeline、辅助潜在模块、文本嵌入模块和文本感知损失。

Experiment

实验结果表明，AnyText与其他方法相比在中英文视觉文本生成方面有更佳性能。

写作借鉴

写作需要详略得当，Ovis论文首先高度凝练概括MLLM视觉与文本嵌入的不一致，进一步概述方法和主要结论。而论文由于方法需要的构建数据集和实验细节本文则选择放入附录。
Kailedo Diffusion 论文整体逻辑性强，从一个简单的动机“生成模型在高CFG引导时模式坍塌”出发，通过公式推导、Toy dataset可视化验证、模型最终训练结果验证强有力的说明了方法的改进效果。模式选择是文本的另一重要考量，本文用大量的结果说明了所提出方法生成的多样性和可编辑性。
AnyText 论文最开始先介绍要解决的任务和问题，再针对每个问题提出本文的方法。论文展示可视化结果，与通用文生图模型和专注于解决视觉文本生成的模型分别对比突出优势。

The End

VLRLab

分享者：尹亮朱翰绅张朔

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉