10.25-1|多图像,视觉偏好对齐,直接偏好优化,视觉语言模型;物体和场景预测评估,世界模拟,预测模型,多模态评估

文摘   2024-10-25 17:18   西藏  

视觉语言模型优化与多图像处理:多图像,视觉偏好对齐,直接偏好优化,视觉语言模型;物体和场景预测评估,世界模拟,预测模型,多模态评估

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

2024-10-23|SJTU, Shanghai AI Lab, CUHK, MThreads|🔺30

http://arxiv.org/abs/2410.17637v1
https://huggingface.co/papers/2410.17637
https://github.com/Liuziyu77/MIA-DPO

研究背景与意义

在近年来,随着大型视觉语言模型(LVLMs)的快速发展,视觉偏好对齐成为了一个重要的研究方向。现有的方法主要针对单图像场景,难以有效处理复杂的多图像任务。这一挑战主要源于多样化训练数据的稀缺和标注选择/拒绝对的高成本。

因此,本文提出了一种新的多图像增强直接偏好优化(MIA-DPO)方法,旨在通过扩展单图像数据来缓解多图像训练数据的稀缺问题。这一创新不仅降低了数据注释的成本,还为多图像输入提供了有效的解决方案。MIA-DPO的提出,标志着在多图像上下文理解能力上的一次重要突破。

研究方法与创新

MIA-DPO方法的核心在于其数据构建策略和优化流程。首先,通过将单图像数据与不相关的图像结合,形成网格拼贴或图中图的格式,从而有效扩展数据集。这种方法不仅降低了对人工标注的依赖,还利用模型的注意力机制来识别和过滤掉模型可能误关注的被拒绝响应。其次,MIA-DPO不依赖于外部模型或API,展现了其在多种架构上的兼容性,并在五个多图像基准测试中超越了现有方法,平均提升了3.0%至4.3%的性能。

实验设计与结果分析

在实验设计中,MIA-DPO被应用于多个基准测试,包括MMMU、BLINK、Mantis、NLVR2和MVBench等。实验结果表明,MIA-DPO在多图像任务中显著提高了模型的性能,同时保持了对单图像任务的理解能力。具体而言,MIA-DPO在LLaVA-v1.5模型上实现了平均性能提升3.0%,在InternLM-XC2.5模型上实现了平均提升4.3%。这些结果不仅验证了MIA-DPO的有效性,也为未来的多模态模型研究提供了新的思路。

结论与展望

MIA-DPO的提出为多图像视觉偏好对齐开辟了新的方向。通过对多图像场景中不同类型的幻觉进行深入分析,本文指出了注意力机制在多图像推理中的重要性。未来的研究可以进一步探索MIA-DPO在更复杂的多模态任务中的应用潜力,并开发更为高效的数据构建和优化策略,以提升模型的智能化水平。

WorldSimBench: Towards Video Generation Models as World Simulators

2024-10-23|CUHK, Shanghai AI Lab, BUAA, HKU|🔺15

http://arxiv.org/abs/2410.18072v1
https://huggingface.co/papers/2410.18072
https://iranqin.github.io/WorldSimBench.github.io

研究背景与意义

近年来,预测模型在预测物体和场景的未来状态方面取得了显著的进展。然而,基于内在特征的分类缺失,限制了预测模型的发展。此外,现有基准无法有效评估具备高能力和高度具身化的预测模型。为了解决这些问题,研究者们提出了WorldSimBench,一个双重评估框架,旨在通过明确的感知评估和隐含操作评估来分类和评估预测模型的功能。

该研究的目标是建立一个合理的层级系统,评估预测模型的能力和具身化程度。通过对预测模型的分类,研究者能够更好地针对不同的具身化视角进行评估,确保其优缺点得到充分的评估。这为推动具身人工智能的发展提供了重要的基础。

研究方法与创新

本研究提出的WorldSimBench框架包含两种评估方式:显性感知评估和隐性操作评估。显性感知评估侧重于从视觉角度评估生成内容的质量,而隐性操作评估则通过将生成的视频转换为控制信号来评估模型在动态环境中的表现。

在显性感知评估中,研究者引入了HF-Embodied Dataset,这是一个基于细粒度人类反馈的视频评估数据集,涵盖了多个具身场景。在隐性操作评估中,研究者通过评估生成视频的情况感知一致性,来检验模型在动态环境中的操作能力。

该研究的创新点在于提出了一个系统化的评估框架,能够全面评估预测模型的能力,并为未来的研究提供了重要的参考。

实验设计与结果分析

研究者对多个视频生成模型进行了评估,包括Open-Sora-Plan、Lavie等,分别在开放式具身环境、自主驾驶和机器人操作等三个场景下进行测试。实验结果显示,Open-Sora-Plan在各个场景中表现优异,尤其在生成高质量视频和执行复杂任务方面。

通过对比不同模型在显性感知评估和隐性操作评估中的表现,研究者发现,尽管大多数模型在静态评估中表现良好,但在动态环境中,模型的表现差异显著。这表明当前的视频生成模型在处理复杂场景时仍需改进。

结论与展望

本研究通过提出WorldSimBench框架,为预测模型的评估提供了新的视角和方法。研究者们总结了当前模型的优缺点,并指出了未来改进的方向,包括提高生成视频的物理一致性和增强模型在复杂任务中的适应能力。

未来的研究可以进一步探索不同场景下的评估方法,推动具身人工智能的研究和应用。通过不断完善评估框架和模型,研究者们希望能够为实现更高水平的具身智能奠定基础。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章