1
PVIT:港科大团队提出“个性化视觉指令微调”
论文链接:https://arxiv.org/abs/2410.07113
多模态大语言模型(MLLMs)最近取得了重大进展;然而,这些模型表现出明显的局限性,即“脸盲”(face blindness)。具体来说,它们可以进行一般对话,但无法针对特定个人进行个性化对话。这一缺陷阻碍了 MLLM 在个性化环境中的应用,例如移动设备上的定制视觉助手,或需要识别家庭成员的家用机器人。
2
苹果推出多模态大语言模型 MM-Ego
论文链接:https://arxiv.org/abs/2410.07177
为了建立以自我为中心的视频理解的多模态基础模型,来自苹果、香港科技大学和加州大学洛杉矶分校的研究团队从三个方面开展工作。
由于缺乏用于自我中心视频理解的问答(QA)数据,他们开发了一个数据引擎,它能根据人类标注的数据,高效地生成 7M 个高质量的自我中心视频 QA 样本,样本长度从 30 秒到 1 小时不等。这是目前最大的以自我为中心的 QA 数据集。
他们提供了一个具有挑战性的以自我为中心的 QA 基准,其中包含 629 个视频和 7026 个问题,用于评估模型在不同长度视频中识别和记忆视觉细节的能力。他们提出了一种新的去偏差评估方法,以帮助减轻被评估模型中不可避免的语言偏差。
他们提出了一种专门的多模态架构,具有新颖的“内存指针提示”机制。这一设计包括一个全局一瞥步骤,以获得对整个视频的总体理解并识别关键视觉信息,然后是一个后退步骤,利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。
3
将 MLLM 作为检索器:用于具身智能体的交互式学习多模态检索
论文链接:https://arxiv.org/abs/2410.03450
为了解决这个问题,北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever(MART),通过利用交互数据来微调基于偏好学习的 MLLM Retriever,使 Retriever 充分考虑轨迹的有效性,并在未见任务中优先考虑它们,从而提高具身智能体的性能。他们还提出了“轨迹提取”(Trajectory Abstraction)机制,该机制利用 MLLM 的概括能力,在保留关键信息的同时用更少的 token 来表示轨迹,从而使智能体能够更好地理解轨迹。
各种环境下的实验结果表明,与基线方法相比,他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性,提出了在具身智能体中进行多模态检索的新范例。
4
LLaVA-Critic:首个开源多模态大模型通用评测器
论文链接:https://arxiv.org/abs/2410.02712
来自字节跳动和马里兰大学的研究团队发布了首个用于多任务评测的开源多模态大模型LLaVA-Critic,旨在启发社区开发通用大模型评测器(generalist evaluator)。
首先,该团队构建了一个涵盖了多样化评测场景和评分标准的评测指令遵循数据集(critic instruction-following dataset);
之后,在这一数据集上训练 LLaVA-Critic,使之学会对模型回复给出合理评分(judgement)和打分依据(reason);
更进一步,在多模态评测(LMM-as-a-Judge)和偏好学习(preference learning)两个场景中验证了 LLaVA-Critic 的有效性。
图:LLaVA-Critic-113k 数据集,共计包含 46k 张图片和 113k 个评测数据样本
上方的柱状图进一步直观展示了 LLaVA-Critic 的反馈对 LLaVA-OneVision 模型在视觉问答性能上的提升效果。可见,LLaVA-Critic 作为一种提供有效奖励信号的可扩展方案,不仅减少了对昂贵人工反馈的依赖,还通过 AI 生成的反馈进一步优化了模型的偏好对齐效果。