大模型前沿|MLLM篇:苹果多模态模型大升级!首个开源MLLM通用评测器LLaVA-Critic!

文摘   2024-10-16 09:00   广东  

1


苹果推出 300 亿参数多模态大模型 MM1.5:文本密集、多图理解

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人眼中的风景。


论文地址:https://arxiv.org/pdf/2409.20566

近日,苹果公司推出了升级版的多模态AI大模型——MM1.5

MM1.5 以前代MM1模型为基础,采用数据为中心的方法进行训练,显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力

MM1.5 提供了从10亿到300亿的多种参数规模,涵盖密集和专家混合(MoE)模型,即使较小的尺寸也有优异的表现。

MM1.5 保留了与 MM1 相同的模型架构,并将改进的努力集中在以下几个关键方面:

  1. 持续预训练:团队在 MM1.5 的持续预训练阶段引入了高质量的 OCR 数据和合成图像描述,显著提升了模型对包含大量文本的图像的理解能力。

  2. 监督式微调:研究人员在监督式微调阶段分析了不同数据类型对模型表现的影响,优化了视觉指令微调数据的混合方式,从而为模型实现了更高的效率,团队表示,即便是小规模的模型(10、30 亿参数版本)也能表现出色。

图:模型训练包含三个阶段:(i) 使用低分辨率图像 (378×378) 进行大规模预训练;(ii) 使用高分辨率(高达4M像素)OCR数据和合成字幕进行持续预训练;(iii) 监督微调(SFT)。

2


PVIT:港科大团队提出“个性化视觉指令微调”

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人眼中的风

论文链接:https://arxiv.org/abs/2410.07113

多模态大语言模型(MLLMs)最近取得了重大进展;然而,这些模型表现出明显的局限性,即“脸盲”(face blindness)。具体来说,它们可以进行一般对话,但无法针对特定个人进行个性化对话。这一缺陷阻碍了 MLLM 在个性化环境中的应用,例如移动设备上的定制视觉助手,或需要识别家庭成员的家用机器人。

在这项工作中,来自香港科技大学和伊利诺伊大学香槟分校的研究团队提出了个性化视觉指令微调(PVIT),这是一种新颖的数据整理和训练框架,旨在使 MLLMs 能够识别图像中的目标个体,并进行个性化和连贯的对话。他们的方法包括开发一个复杂的管道,它能自主生成包含个性化对话的训练数据。该管道充分利用了各种视觉专家、图像生成模型和(多模态)大语言模型的能力。
为了评估 MLLM 的个性化潜力,他们提出了一个名为 P-Bench 的基准,其中包含不同难度的各种问题类型。实验表明,在使用精心策划的数据集进行微调后,个性化性能得到了大幅提升。


3


苹果推出多模态大语言模型 MM-Ego

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人眼中的风景。

论文链接:https://arxiv.org/abs/2410.07177

为了建立以自我为中心的视频理解的多模态基础模型,来自苹果、香港科技大学和加州大学洛杉矶分校的研究团队从三个方面开展工作。

1. 由于缺乏用于自我中心视频理解的问答(QA)数据,他们开发了一个数据引擎,它能根据人类标注的数据,高效地生成 7M 个高质量的自我中心视频 QA 样本,样本长度从 30 秒到 1 小时不等。这是目前最大的以自我为中心的 QA 数据集。

2. 他们提供了一个具有挑战性的以自我为中心的 QA 基准,其中包含 629 个视频和 7026 个问题,用于评估模型在不同长度视频中识别和记忆视觉细节的能力。他们提出了一种新的去偏差评估方法,以帮助减轻被评估模型中不可避免的语言偏差。

3. 他们提出了一种专门的多模态架构,具有新颖的“内存指针提示”机制。这一设计包括一个全局一瞥步骤,以获得对整个视频的总体理解并识别关键视觉信息,然后是一个后退步骤,利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。

有了这些数据、基准和模型,他们成功地建立了以自我为中心的多模态大语言模型 MM-Ego,它在以自我为中心的视频理解方面表现出了强大的性能。


4


将 MLLM 作为检索器:用于具身智能体的交互式学习多模态检索

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人MLLM 智能体通过检索与任务相关的多模态轨迹数据,在复杂的具身任务中展现出了潜力。然而,目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性,而忽略了它们对手头特定任务的有效性。

论文链接:https://arxiv.org/abs/2410.03450

MLLM 智能体通过检索与任务相关的多模态轨迹数据,在复杂的具身任务中展现出了潜力。然而,目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性,而忽略了它们对手头特定任务的有效性。

为了解决这个问题,北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever(MART),通过利用交互数据来微调基于偏好学习的 MLLM Retriever,使 Retriever 充分考虑轨迹的有效性,并在未见任务中优先考虑它们,从而提高具身智能体的性能。他们还提出了“轨迹提取”(Trajectory Abstraction)机制,该机制利用 MLLM 的概括能力,在保留关键信息的同时用更少的 token 来表示轨迹,从而使智能体能够更好地理解轨迹。

各种环境下的实验结果表明,与基线方法相比,他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性,提出了在具身智能体中进行多模态检索的新范例。

5


LLaVA-Critic:首个开源多模态大模型通用评测器

独特的异国风情外,独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头,悬在车外。他们以独特的视角游览独立大街,又成了街上其他人眼中的风景。

论文链接:https://arxiv.org/abs/2410.02712

来自字节跳动和马里兰大学的研究团队发布了首个用于多任务评测的开源多模态大模型LLaVA-Critic,旨在启发社区开发通用大模型评测器(generalist evaluator)。

1. 首先,该团队构建了一个涵盖了多样化评测场景和评分标准的评测指令遵循数据集(critic instruction-following dataset);

2. 之后,在这一数据集上训练 LLaVA-Critic,使之学会对模型回复给出合理评分(judgement)和打分依据(reason);

3. 更进一步,在多模态评测(LMM-as-a-Judge)偏好学习(preference learning)两个场景中验证了 LLaVA-Critic 的有效性。

图:LLaVA-Critic-113k 数据集,共计包含 46k 张图片和 113k 个评测数据样本

1
场景一:多模态大模型作为评测器(LMM-as-a-Judge)
该团队首先对 LLaVA-Critic 模型在多个多模态评测任务中与 GPT-4o 以及人类的打分一致性进行了验证。


2
场景二:偏好学习(Preference Learning)
LLaVA-Critic 的评测能力也可用于比较成对模型回复的好坏,从而作为奖励信号应用于 RLHF 和 DPO 等强化学习算法。实验中,该团队将 LLaVA-Critic 用于迭代直接偏好优化(iterative DPO)算法。

上方的柱状图进一步直观展示了 LLaVA-Critic 的反馈对 LLaVA-OneVision 模型在视觉问答性能上的提升效果。可见,LLaVA-Critic 作为一种提供有效奖励信号的可扩展方案,不仅减少了对昂贵人工反馈的依赖,还通过 AI 生成的反馈进一步优化了模型的偏好对齐效果。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章