复旦大学提出OccLLaMA,一种occ-language-action生成世界模型。

文摘   2024-09-19 22:43   湖北  

  今天的论文分享了生成模型OccLLaMA和OmniVec以及一种多模态讲座演示数据集。

OccLLaMA: An Occupancy-Language

-Action Generative World Model forAutonomous Driving



arXiv2024



 OccLLaMA,一种occ-language-action生成世界模型,它使用语义occupancy作为一般的视觉表示,并通过自回归模型统一视觉语言动作 (VLA) 模态。引入一种新颖的 VQV AE 类场景tokenizer,以有效地离散化和重建语义occ场景。然后为视觉、语言和动作建立了一个统一的多模态词汇表。此外,还增强了 LLM,以对统一词汇表执行下一个token场景预测,从而完成自动驾驶中的多项任务。OccLLaMA 在多项任务中实现了具有竞争力的性能,包括 4D occ预测、运动规划和视觉问答。

论文链接



  https://arxiv.org/pdf/2409.03272v1

Overview


    OccLLaMA 结构的核心是 Scene Tokenizer 和 Generative World Model。Scene Tokenizer 将 Occ 表示离散为场景词汇表,然后将其与语言和动作词汇表相结合,构建一个统一的词汇表。此外,生成世界模型在统一词汇空间上执行下一个标记/场景预测,包括场景理解、推理和行为。

Experiments



    OccLLaMA 总体上提供了最佳性能。与 LiDAR-LLM 相比,OccLLaMA 可以更好地捕获 3D 空间中的语义信息,这对于与对象相关的问题至关重要。此外,OccLLaMA 将空间信息作为输入,并自然地对齐语义和空间数据,这对于涉及空间关系的问题是有益的。

OmniVec: Learning robust representations with cross modal sharing



arXiv2023



    该文章提出了OmniVec,一种跨模态共享的生成式框架,通过学习来自不同模态(视觉、音频、文本、3D点云等)的通用表示。OmniVec 使用模态特定的编码器和共享的主干网络,结合任务特定的预测头,实现多任务、多模态的统一处理。为了有效捕获跨模态的信息共享,框架引入了自监督掩码预训练机制,用于离散化和重建不同模态的输入数据。OmniVec 还构建了一个统一的嵌入空间,使得来自不同模态的数据可以通过共享的Transformer主干进行处理,并且可以进行跨模态的知识共享。该框架在多个任务中展示了出色的泛化能力和性能表现,包括图像分类、点云分割、音频分类和文本摘要等任务。

论文链接



 https://arxiv.org/pdf/2311.05709v1

Framework


    OmniVec所提出的方法从其中一种模态中获取数据,并将其通过模态编码器,将其与元标记相结合,然后通过投影层将特征嵌入到公共嵌入空间中。然后它通过 Transformer 层的公共主干,然后由矢量化器矢量化。最后,任务头用于任务特定的输出。

Experiment



基准测试结果:

分类任务:ImageNet1K:OmniVec在图像分类任务中达到92.4%的Top-1准确率,优于现有最先进的方法。

AudioSet:在音频分类任务中,OmniVec达到54.8%的mAP,超过其他方法的表现。

语义分割任务:SUN RGB-D:在深度图分割任务中,OmniVec的Top-1准确率为74.6%,显著高于基准方法。

3D点云任务:ModelNet40:在3D点云分类任务中,OmniVec达到96.6%的总体准确率,优于现有最先进的方法。

Lecture Presentations Multimodal Dataset:Towards 

Understanding Multimodality in Educational Videos



ICCV2023



    多媒体和心理学领域的先前研究将讲座演示的有效性归因于其多模态性质。作为开发人工智能以作为智能教师助理帮助学生学习的一步,文章引入了多模态讲座演示数据集,作为一个大规模基准测试机器学习模型在多模态理解教育内容方面的能力。CPM数据集包含对齐的幻灯片和口语,包括 180 多个小时的视频和 9000 多张幻灯片,来自不同学科(例如计算机科学、牙科、生物学)的 10 位讲师。文章介绍了两个研究任务,它们旨在作为通往能够解释(自动为讲座演示添加字幕)和说明(合成视觉图形以配合口头解释)教育内容的人工智能代理的垫脚石。提供了手动注释来帮助实施这两项研究任务,并评估其上最先进的模型。

论文链接



https://ieeexplore.ieee.org/document/10376585

Framework


    PolyViLT 模型的文本和图像补丁被输入到基于 ViLT 的 transformer 编码器中,BERT 嵌入被转换为 K 表示形式。MIL Loss用于解决弱跨模态对齐并查找部分对齐的实例。

Experiment



    实验结果显示,PolyViLT 的性能大大优于以前所有最先进的方法。此外,实验发现训练演讲人的专有模型优于对所有演讲人进行集体训练。

写作总结



  1. OccLLaMA这篇文章首先指出当前基于MLLM的自动驾驶模型的缺点,和人类的驾驶过程对比,从而引出“世界模型”和联合视觉、语言、动作(VLA)三种模态的任务。并根据通用视觉的要求选择Occ作为视觉表示,从而提出以Occ为视觉表示、联合三种模态的自动驾驶基础模型OccLLaMA。接着详细介绍了框架和实现细节,并最终给出三个模态各自任务上的实验表现,使得文章较为清晰。但是,OccLLaMA的定性分析不够充分。除了Occ预测以外,语言和动作任务都没有给出对应的定性对比结果。此外,没有给出不同视觉表示和 tokenizer decoder的消融实验。

  2. OmniVec该论文的写作风格严谨而规范,遵循了学术论文的典型结构和表达方式。作者使用精确的技术术语,并通过清晰的逻辑层次来介绍研究背景、方法、实验和结果。文章内容高度聚焦,避免了冗余的描述,注重呈现核心贡献和技术细节。数据和实验结果以表格和图示的形式呈现,以支持关键论点和结论。整篇文章强调方法的创新性以及与现有工作的对比,客观且有条理地分析了其优缺点。

  3. PolyVilt这篇文章论文写作结构清晰,明确地表明了第一篇工作在教育幻灯片领域图文互相检索的工作,具有重要意义。但是文章没有在PolyVilt模型公开image-text retrieval任务和公开benchmark上同先进模型进行对比,只在文章提出的LPM数据集上与2019和2021年的模型进行了性能的对比,实验部分缺乏说服力。


The End




VLRLab


分享者:涂思凡 曹佳豪 黎宇哲

审核:伏凌


免责声明:

(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

(2)本文观点不代表本公众号立场


VLRLab学习屋
发布华中科技大学VLRLab实验室的新闻资讯与动态
 最新文章