字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

文摘 2024-11-28 22:02 湖北

今天的论文分享了多模态大模型和世界模型。

LLaVA-NeXT-Interleave: Tackling Multi-image, Video,

and 3D in Large Multimodal Models

ICLR2024

文章提出了一种面向多图像、视频和三维任务的多模态大模型方法。通过引入交织数据格式，将图像、视频、三维和单图像任务统一在一个模型框架下，利用 M4-Instruct 数据集进行多任务联合训练，实现了跨场景的任务迁移和优异的多模态理解能力。该方法在多个基准数据集上表现出色，尤其在多图像和视频任务中突破了现有技术的瓶颈。能够处理实际应用中复杂的多图像任务，具有广泛的应用潜力。

论文链接

https://arxiv.org/abs/2407.07895v2

Overview

图中顶部介绍了 M4-Instruct 中的任务：（a）展示了交错多图像场景的示例（视觉故事讲述）。（b）、（c）和（d）表示视频、三维和单张图像数据也可以组织为交错数据格式进行统一处理。

底部展示了该数据集的具体示例。

Experiments

广泛的实验验证了 LLaVA-NeXT-Interleave 不仅在多图像任务中树立了新的最先进的基准，而且在单图像任务中保持了卓越的性能。此外，该模型还展示了有前途的新兴功能，例如跨任务转移，展示了其多功能性和更广泛应用的潜力。

Bridging the Gap: A Unified Video Comprehension

Framework for Moment Retrieval and Highlight Detection

CVPR2024

最近的方法将 MR(Moment Retrieval)和HD(Highlight Detection)视为类似的视频基础问题，并使用基于Transformer的架构一起解决它们。缺乏针对特定任务的设计将不可避免地导致将两个任务的内在特性关联起来的限制。为了解决这个问题，文章提出了一个统一视频理解框架 (UVCOM) 来弥合差距并有效地联合解决 MR 和 HD。通过跨多粒度对模态内和模态间进行渐进式集成，UVCOM 实现了对视频处理的全面理解。此外，文章提出了多方面对比学习，以通过良好对齐的多模态空间巩固局部关系建模和全局知识积累。

论文链接

https://arxiv.org/abs/2311.16464v1

Framework

基于对 MR 和 HD 的探索，论文提出了一个统一的视频理解框架，并遵循设计原则。具体来说，该模型以带有语言描述的视频作为输入。在编码和早期融合过程之后，设计了一个综合集成模块 (CIM)，以实现跨多粒度的模态内和模态间的后续渐进式集成。最后，多任务头输出 MR 的矩跨度和 HD 的显著性分数。

Experiment

在视频高光检测，时刻定位等任务上的实验验证了模型对视频的全面理解，并表明UVCOM 明显优于现有的最先进方法。

消融实验验证了CIM,MCL方法的有效性。

DREAMGAUSSIAN: GENERATIVE GAUSSIAN SPLATT-

ING FOR EFFICIENT 3D CONTENT CREATION

ICLR2024

学习世界模型可以教会agent世界如何以无监督的方式运作。尽管它可以被视为序列建模的一个特例，但在自动驾驶等应用上扩展世界模型的进展速度略低于使用生成式预训练 Transformers (GPT) 扩展语言模型。文章认为两个原因是主要瓶颈：处理复杂和非结构化的观察空间，以及设计可扩展的生成模型。因此，本文提出了 Copilot4D，这是一种新颖的世界建模方法，它首先使用 VQVAE 对传感器观测进行标记，然后通过离散diffusion预测未来。为了高效地并行解码和去噪标记，Copilot将 Masked Generative Image Transformer 重新设计为离散diffusion，并通过一些简单的更改对其进行了增强，从而取得了显著的改进。Copilot的结果表明，基于标记化代理经验的离散diffusion可以释放类似 GPT 的机器人无监督学习的力量。

论文链接

https://arxiv.org/abs/2311.01017v4

Framework

Copilot4D 方法首先使用类似 VQVAE 的分词器对传感器观测进行标记，然后通过离散扩散预测。分词器将点云编码为鸟瞰视图（BEV）中的离散潜在云，并通过可微分深度渲染进行重建。世界模型是一个在 BEV 的token上运行的离散扩散模型。

Experiment

上述表格显示了在三个数据集上与最先进的无监督点云预测方法的定量比较。Copilot4D 能够在所有三个数据集中显著优于以前的方法。特别是，对于 1s 预测，能够看到所有三个数据集的倒角距离与之前的 SOTA 相比减少了 65% −75%;对于 3s 预测， Chamfer 减少 50% 以上。

写作总结

论文1用语通俗易懂，示意图、效果图比较详细，如M4-Instruct训练数据统计图、LLaVA-Interleave Bench统计图，以及各个任务的示例图。通过多个对比表格展现出了LLaVA-NeXT-Interleave的优异性能。
消融实验只证明了混合多种数据对视频理解能力的提升效果，不完整。训练流程缺少pipeline和训练各阶段示意图。
论文2UVCOM 利用了 MR 和 HD 分别具有的局部特征与全局特征。将 MR 和 HD 视为类似的视频基础问题，并使用基于Transformer的架构一起解决它们。缺乏针对特定任务的设计将不可避免地导致将两个任务的内在特性关联起来的限制。为了解决这个问题，文章提出了一个统一视频理解框架 (UVCOM) 来弥合差距并有效地联合解决 MR 和 HD。通过跨多粒度对模态内和模态间进行渐进式集成，此外，文章提出了多方面对比学习，以通过良好对齐的多模态空间巩固局部关系建模和全局知识积累。
在写作方面，思路清晰，但是在结构解释部分不是特别详细
论文3的写作优点：公式和示意图非常详细，直观且详细地介绍了VQVAE、skipping render、离散diffusion、CFG等结构。通过定量和定性实验结果展示了Copilot4D的优越性能。
写作不足：只对CFG、skipping render 和离散diffusion做了消融实验，没分析VQVAE的影响。

The End

VLRLab

分享者：曹佳豪黎宇哲涂思凡

编辑：罗琪頔

审核：伏凌

免责声明：

（1）本文仅代表论文分享者观点，分享者不是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。

（2）本文观点不代表本公众号立场

VLRLab学习屋

发布华中科技大学VLRLab实验室的新闻资讯与动态

最新文章

武汉大学提出Hi-SAM，一种利用SAM进行多层次文本分割的统一模型。

北京大学提出了一种实时端到端检测器，名为RT-DETR

字节跳动提出LLaVA-NeXT-Interleave：一种面向多图像、视频和三维任务的多模态大模型方法

北京大学提出了一种高效的3D内容生成方法DreamGaussian

历史性突破！VLRlab大四学生团队首次在“挑战杯”揭榜挂帅专项赛斩获“擂主”

UCSD提出一种新的图像表示，它使用扩散模型促进输入图像的空间编辑。

就在明天！CSIG优博论坛将于11月3日在华中科技大学举办

华为提出EWEK-QA，一种高效通用的QA系统。

VLRLab团队受字节跳动安全与数据部门邀请，进行基于大模型的多模态风险内容识别的汇报

清华大学提出视觉语言模型CogAgent，专注于GUI的理解与导航。

VLRLab团队iPad本科生获ECCV 2024水下目标识别竞赛全球冠军

华南理工&华科提出一种Bridge text spotting方法，解决了两阶段方法中的错误累积和次优性能问题，同时保持模块化。

MIT提出了一种异构预训练Transformer模型

VLRLab团队研究生成果获ECCV2024首届数据集蒸馏竞赛亚军

VLRLab团队4篇论文入选人工智能领域国际顶会NeurIPS 2024

上海交通大学提出了一种有效的位置森林Transformer: PosFormer，用于手写数学表达式识别。(米兰）

VLRLab团队iPad本科生论文被PRCV 2024接收

复旦大学提出OccLLaMA，一种occ-language-action生成世界模型。

国科大提出Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法。

VLRLab团队iPad本科生论文被Nature旗下期刊《Scientific Data》接收

甲骨文单字辅助破译数据集HUST-OBC

高质量甲骨文文字演变数据集EVOBC

前沿论文分享20240716

前沿论文分享20240708

任意粒度感知！IPad本科生发表顶级会议论文

VLRLab团队7篇论文入选计算机视觉国际顶会ECCV 2024

前沿论文分享20240702

前沿论文分享20240626

前沿论文分享20240618

前沿论文分享20240611

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉