大模型前沿|MLLM篇:港科大团队提出PVIT;苹果推出MM-Ego;北大将MLLM作为检索器;首个开源MLLM通用评测器...

文摘   2024-10-15 16:16   广东  

1


PVIT:港科大团队提出“个性化视觉指令微调”



论文链接:https://arxiv.org/abs/2410.07113

多模态大语言模型(MLLMs)最近取得了重大进展;然而,这些模型表现出明显的局限性,即“脸盲”(face blindness)。具体来说,它们可以进行一般对话,但无法针对特定个人进行个性化对话。这一缺陷阻碍了 MLLM 在个性化环境中的应用,例如移动设备上的定制视觉助手,或需要识别家庭成员的家用机器人。

在这项工作中,来自香港科技大学和伊利诺伊大学香槟分校的研究团队提出了个性化视觉指令微调(PVIT),这是一种新颖的数据整理和训练框架,旨在使 MLLMs 能够识别图像中的目标个体,并进行个性化和连贯的对话。他们的方法包括开发一个复杂的管道,它能自主生成包含个性化对话的训练数据。该管道充分利用了各种视觉专家、图像生成模型和(多模态)大语言模型的能力。
为了评估 MLLM 的个性化潜力,他们提出了一个名为 P-Bench 的基准,其中包含不同难度的各种问题类型。实验表明,在使用精心策划的数据集进行微调后,个性化性能得到了大幅提升。

2


苹果推出多模态大语言模型 MM-Ego



论文链接:https://arxiv.org/abs/2410.07177

为了建立以自我为中心的视频理解的多模态基础模型,来自苹果、香港科技大学和加州大学洛杉矶分校的研究团队从三个方面开展工作。

  1. 由于缺乏用于自我中心视频理解的问答(QA)数据,他们开发了一个数据引擎,它能根据人类标注的数据,高效地生成 7M 个高质量的自我中心视频 QA 样本,样本长度从 30 秒到 1 小时不等。这是目前最大的以自我为中心的 QA 数据集。

  2. 他们提供了一个具有挑战性的以自我为中心的 QA 基准,其中包含 629 个视频和 7026 个问题,用于评估模型在不同长度视频中识别和记忆视觉细节的能力。他们提出了一种新的去偏差评估方法,以帮助减轻被评估模型中不可避免的语言偏差。

  3. 他们提出了一种专门的多模态架构,具有新颖的“内存指针提示”机制。这一设计包括一个全局一瞥步骤,以获得对整个视频的总体理解并识别关键视觉信息,然后是一个后退步骤,利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。

有了这些数据、基准和模型,他们成功地建立了以自我为中心的多模态大语言模型 MM-Ego,它在以自我为中心的视频理解方面表现出了强大的性能。

3


将 MLLM 作为检索器:用于具身智能体的交互式学习多模态检索

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人眼中的风景。

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人眼中的风景。


论文链接:https://arxiv.org/abs/2410.03450

MLLM 智能体通过检索与任务相关的多模态轨迹数据,在复杂的具身任务中展现出了潜力。然而,目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性,而忽略了它们对手头特定任务的有效性。

为了解决这个问题,北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever(MART),通过利用交互数据来微调基于偏好学习的 MLLM Retriever,使 Retriever 充分考虑轨迹的有效性,并在未见任务中优先考虑它们,从而提高具身智能体的性能。他们还提出了“轨迹提取”(Trajectory Abstraction)机制,该机制利用 MLLM 的概括能力,在保留关键信息的同时用更少的 token 来表示轨迹,从而使智能体能够更好地理解轨迹。

各种环境下的实验结果表明,与基线方法相比,他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性,提出了在具身智能体中进行多模态检索的新范例。

4


LLaVA-Critic:首个开源多模态大模型通用评测器



论文链接:https://arxiv.org/abs/2410.02712

来自字节跳动和马里兰大学的研究团队发布了首个用于多任务评测的开源多模态大模型LLaVA-Critic,旨在启发社区开发通用大模型评测器(generalist evaluator)。

  1. 首先,该团队构建了一个涵盖了多样化评测场景和评分标准的评测指令遵循数据集(critic instruction-following dataset);

  2. 之后,在这一数据集上训练 LLaVA-Critic,使之学会对模型回复给出合理评分(judgement)和打分依据(reason);

  3. 更进一步,在多模态评测(LMM-as-a-Judge)偏好学习(preference learning)两个场景中验证了 LLaVA-Critic 的有效性。

图:LLaVA-Critic-113k 数据集,共计包含 46k 张图片和 113k 个评测数据样本

1
场景一:多模态大模型作为评测器(LMM-as-a-Judge)
该团队首先对 LLaVA-Critic 模型在多个多模态评测任务中与 GPT-4o 以及人类的打分一致性进行了验证。


2
场景二:偏好学习(Preference Learning)
LLaVA-Critic 的评测能力也可用于比较成对模型回复的好坏,从而作为奖励信号应用于 RLHF 和 DPO 等强化学习算法。实验中,该团队将 LLaVA-Critic 用于迭代直接偏好优化(iterative DPO)算法。

上方的柱状图进一步直观展示了 LLaVA-Critic 的反馈对 LLaVA-OneVision 模型在视觉问答性能上的提升效果。可见,LLaVA-Critic 作为一种提供有效奖励信号的可扩展方案,不仅减少了对昂贵人工反馈的依赖,还通过 AI 生成的反馈进一步优化了模型的偏好对齐效果。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章