前沿论文分享20240708

文摘   2024-07-08 21:57   湖北  

    今天的论文分享了端到端自动驾驶框架,大模型文本 token 分权重训练以及多模态学习任务。

Hydra-MDP: End-to-end Multimodal Planning with 

Multi-target Hydra-Distillation



arXiv2024



    这篇论文提出了一种名为Hydra-MDP的新型端到端自动驾驶框架。Hydra-MDP采用了一种多目标知识蒸馏的方法,从人类驾驶员和基于规则的规划器中学习不同的轨迹候选方案。论文介绍了Hydra-MDP的整体架构,包括感知网络和轨迹解码器两个部分,在实验部分,Hydra-MDP在Navsim数据集上取得了最先进的性能。

论文链接



  https://arxiv.org/pdf/2406.06978

Framework


    Hydra-MDP 由两个网络组成:感知网络和轨迹解码器。感知网络由图像主干、LiDAR 主干和用于 3D 物体检测和 BEV 分割的感知头组成。感知网络的最终输出包括环境标记 Fenv,它对来自图像和 LiDAR 点云的丰富语义信息进行编码。轨迹解码器主要包括一个固定的规划词汇表,用于离散化连续动作空间。规划词汇表 Vk 由 700K 条轨迹的 K 均值聚类中心形成。然后使用 MLP 将 Vk 嵌入为 k 个潜在查询,发送到 Transformer 编码器层。

Experiments



    实验结果凸显了 Hydra-MDP 相对于基线的绝对优势。PDM 分数的不规则分布会导致性能下降,这表明论文提出多目标学习范式的必要性。

Seeing the Image: Prioritizing Visual Correlation byContrastive Alignment



arXiv2024



    这篇文章通过视觉相关的 token 增强多模态对齐效果。目前视觉语言模型依赖于图片模态的对齐,如何做好对齐非常关键。目前主流的方法是通过文本自回归的方式进行隐式对齐,但是每个文本 token 对图像对齐的贡献是不一致的,对这些文本 token 进行区分是非常有必要的。CAL 提出,在现有的视觉语言模型(VLM)训练数据中,文本 token 可以被分为三类,与图片高度相关的文本,与图片低相关度的文本以及与图片内容相悖的文本。通过在训练时为图片高度相关token分配更大的损失权重并抑制图片内容相悖的文本token,cal在llava和minigemini上能够取得更好的效果。

论文链接



 https://arxiv.org/pdf/2405.17871v1

Framework


    图 a 展示了从 ShareGPT4V 数据集中提取的样本。我们计算有或无图像输入的 logit 差异,并在部分文本标记上绘制热图。图 b 展示了 CAL 的训练过程,它根据对比 logit 重新加权标签标记的重要性。

Experiment



    实验结果展示了 VLM 在视觉问答方面的表现。在 MGM 和 GPU 上不同的分辨率设置下,CAL在大多数理解基准上都以令人印象深刻的幅度持续提高了性能

VEGA : Learning Interleaved Image-Text Comprehension 

in Vision-LanguageLarge Models



arXiv2024



    这篇论文提出了一种新的多模态学习任务——交错图像-文本理解(IITC),旨在提升模型在处理混合视觉和语言信息时的精确度,为此创建了VEGA数据集,并设计了图像-文本关联(ITA)子任务来增强模型的相关性识别能力。通过多任务和多尺度的后训练策略,他们在Qwen-VL-Chat模型上取得了85.8%的图像关联准确率和0.508的Rouge得分,从而验证了VEGA数据集在提高模型理解复杂图像-文本场景方面的效果。

论文链接



https://arxiv.org/pdf/2406.10228v1

Framework


    IITC 和 ITA 任务的任务定义。(a)IITC 任务以长交错的图像文本内容作为输入,并要求模型在其响应中指定其引用的图像。(b)ITA 任务以来自不同文章的混洗图像和文本片段作为输入,并要求模型输出文本和图像之间的关系。和  分别代表文本片段和图像。它们都被标记化并与任务提示和问题一起输入到模型中。

Experiment



    在VEGA 数据集上的实验评估结果,突显了 IITC 和 ITA 任务带来的巨大挑战。InternVL 和 Qwen-VL-Chat 在两个任务上的表现都不佳,这可以归因于这些开源模型遵循指令的能力有限。GPT4V 在 IITC 任务上实现了最高的图像关系准确率。然而,错误分析表明,主要问题包括相似图像的干扰和遵循指令的不稳定性。Gemini-1.5-pro 在 ITA 任务中表现出色,突显了其强大的图像文本理解能力。


写作总结



  1. Hydra-MDP这篇文章是技术报告,缺少了related work模块,偏向于自己的技术介绍,但行文逻辑和传统的论文一样,先引入了自动驾驶领域中两种主要的端到端规划范式,指出它们存在的问题,然后提出了自己的新框架Hydra-MDP,并详细介绍了其实现细节,最后给出实验过程和实验结果,这种由提出问题到解决方案的逻辑流程,使得文章的行文逻辑比较清晰。

  2. 学会使用可视化的结果讲好论文,以及说明方法的有效性,能够使得结论更具说服力。CAL这篇论文不仅仅通过实验结果告诉我们方法的有效性,而且还通过进一步的图像token到文本token的映射,证明了CAL的有效性。

  3. VEGA论文实验不够充分。缺少在MLLM benchmark上的实验,消融实验也不够充分。数据集的构建方式比较科学,容易让人接受。指标相对较低,可能与baseline选择和任务难度有关。


The End




VLRLab


分享者:付好宇 李长 刘洋

编辑:罗琪頔

审核:伏凌


免责声明:

(1)本文仅代表论文分享者观点,分享者不是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

(2)本文观点不代表本公众号立场


VLRLab学习屋
发布华中科技大学VLRLab实验室的新闻资讯与动态
 最新文章