今天的论文分享了多模态大模型和世界模型。
LLaVA-NeXT-Interleave: Tackling Multi-image, Video,
and 3D in Large Multimodal Models
ICLR2024
文章提出了一种面向多图像、视频和三维任务的多模态大模型方法。通过引入交织数据格式,将图像、视频、三维和单图像任务统一在一个模型框架下,利用 M4-Instruct 数据集进行多任务联合训练,实现了跨场景的任务迁移和优异的多模态理解能力。该方法在多个基准数据集上表现出色,尤其在多图像和视频任务中突破了现有技术的瓶颈。能够处理实际应用中复杂的多图像任务,具有广泛的应用潜力。
论文链接
https://arxiv.org/abs/2407.07895v2
Overview
图中顶部介绍了 M4-Instruct 中的任务:(a) 展示了交错多图像场景的示例(视觉故事讲述)。(b)、(c) 和 (d) 表示视频、三维和单张图像数据也可以组织为交错数据格式进行统一处理。
底部展示了该数据集的具体示例。
Experiments
广泛的实验验证了 LLaVA-NeXT-Interleave 不仅在多图像任务中树立了新的最先进的基准,而且在单图像任务中保持了卓越的性能。此外,该模型还展示了有前途的新兴功能,例如跨任务转移,展示了其多功能性和更广泛应用的潜力。
Bridging the Gap: A Unified Video Comprehension
Framework for Moment Retrieval and Highlight Detection
CVPR2024
最近的方法将 MR(Moment Retrieval)和HD(Highlight Detection)视为类似的视频基础问题,并使用基于Transformer的架构一起解决它们。缺乏针对特定任务的设计将不可避免地导致将两个任务的内在特性关联起来的限制。为了解决这个问题,文章提出了一个统一视频理解框架 (UVCOM) 来弥合差距并有效地联合解决 MR 和 HD。通过跨多粒度对模态内和模态间进行渐进式集成,UVCOM 实现了对视频处理的全面理解。此外,文章提出了多方面对比学习,以通过良好对齐的多模态空间巩固局部关系建模和全局知识积累。
论文链接
https://arxiv.org/abs/2311.16464v1
Framework
基于对 MR 和 HD 的探索,论文提出了一个统一的视频理解框架,并遵循设计原则。具体来说,该模型以带有语言描述的视频作为输入。在编码和早期融合过程之后,设计了一个综合集成模块 (CIM),以实现跨多粒度的模态内和模态间的后续渐进式集成。最后,多任务头输出 MR 的矩跨度和 HD 的显著性分数。
Experiment
在视频高光检测,时刻定位等任务上的实验验证了模型对视频的全面理解,并表明UVCOM 明显优于现有的最先进方法。
消融实验验证了CIM,MCL方法的有效性。
DREAMGAUSSIAN: GENERATIVE GAUSSIAN SPLATT-
ING FOR EFFICIENT 3D CONTENT CREATION
ICLR2024
学习世界模型可以教会agent世界如何以无监督的方式运作。尽管它可以被视为序列建模的一个特例,但在自动驾驶等应用上扩展世界模型的进展速度略低于使用生成式预训练 Transformers (GPT) 扩展语言模型。文章认为两个原因是主要瓶颈:处理复杂和非结构化的观察空间,以及设计可扩展的生成模型。因此,本文提出了 Copilot4D,这是一种新颖的世界建模方法,它首先使用 VQVAE 对传感器观测进行标记,然后通过离散diffusion预测未来。为了高效地并行解码和去噪标记,Copilot将 Masked Generative Image Transformer 重新设计为离散diffusion,并通过一些简单的更改对其进行了增强,从而取得了显著的改进。Copilot的结果表明,基于标记化代理经验的离散diffusion可以释放类似 GPT 的机器人无监督学习的力量。
论文链接
https://arxiv.org/abs/2311.01017v4
Framework
Copilot4D 方法首先使用类似 VQVAE 的分词器对传感器观测进行标记,然后通过离散扩散预测。分词器将点云编码为鸟瞰视图 (BEV) 中的离散潜在云,并通过可微分深度渲染进行重建。世界模型是一个在 BEV 的token上运行的离散扩散模型。
Experiment
上述表格显示了在三个数据集上与最先进的无监督点云预测方法的定量比较。Copilot4D 能够在所有三个数据集中显著优于以前的方法。特别是,对于 1s 预测,能够看到所有三个数据集的倒角距离与之前的 SOTA 相比减少了 65% −75%;对于 3s 预测, Chamfer 减少 50% 以上。
写作总结
论文1用语通俗易懂,示意图、效果图比较详细,如M4-Instruct训练数据统计图、LLaVA-Interleave Bench统计图,以及各个任务的示例图。通过多个对比表格展现出了LLaVA-NeXT-Interleave的优异性能。
消融实验只证明了混合多种数据对视频理解能力的提升效果,不完整。训练流程缺少pipeline和训练各阶段示意图。
论文2UVCOM 利用了 MR 和 HD 分别具有的局部特征与全局特征。将 MR 和 HD 视为类似的视频基础问题,并使用基于Transformer的架构一起解决它们。缺乏针对特定任务的设计将不可避免地导致将两个任务的内在特性关联起来的限制。为了解决这个问题,文章提出了一个统一视频理解框架 (UVCOM) 来弥合差距并有效地联合解决 MR 和 HD。通过跨多粒度对模态内和模态间进行渐进式集成,此外,文章提出了多方面对比学习,以通过良好对齐的多模态空间巩固局部关系建模和全局知识积累。
在写作方面,思路清晰,但是在结构解释部分不是特别详细
论文3的写作优点:公式和示意图非常详细,直观且详细地介绍了VQVAE、skipping render、离散diffusion、CFG等结构。通过定量和定性实验结果展示了Copilot4D的优越性能。
写作不足:只对CFG、skipping render 和 离散diffusion做了消融实验,没分析VQVAE的影响。
The End
VLRLab
分享者:曹佳豪 黎宇哲 涂思凡
编辑:罗琪頔
审核:伏凌
免责声明:
(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。
(2)本文观点不代表本公众号立场