1
苹果推出 300 亿参数多模态大模型 MM1.5:文本密集、多图理解
论文地址:https://arxiv.org/pdf/2409.20566
近日,苹果公司推出了升级版的多模态AI大模型——MM1.5。
MM1.5 以前代MM1模型为基础,采用数据为中心的方法进行训练,显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力。
MM1.5 保留了与 MM1 相同的模型架构,并将改进的努力集中在以下几个关键方面:
持续预训练:团队在 MM1.5 的持续预训练阶段引入了高质量的 OCR 数据和合成图像描述,显著提升了模型对包含大量文本的图像的理解能力。
监督式微调:研究人员在监督式微调阶段分析了不同数据类型对模型表现的影响,优化了视觉指令微调数据的混合方式,从而为模型实现了更高的效率,团队表示,即便是小规模的模型(10、30 亿参数版本)也能表现出色。
图:模型训练包含三个阶段:(i) 使用低分辨率图像 (378×378) 进行大规模预训练;(ii) 使用高分辨率(高达4M像素)OCR数据和合成字幕进行持续预训练;(iii) 监督微调(SFT)。
2
PVIT:港科大团队提出“个性化视觉指令微调”
论文链接:https://arxiv.org/abs/2410.07113
多模态大语言模型(MLLMs)最近取得了重大进展;然而,这些模型表现出明显的局限性,即“脸盲”(face blindness)。具体来说,它们可以进行一般对话,但无法针对特定个人进行个性化对话。这一缺陷阻碍了 MLLM 在个性化环境中的应用,例如移动设备上的定制视觉助手,或需要识别家庭成员的家用机器人。
3
苹果推出多模态大语言模型 MM-Ego
论文链接:https://arxiv.org/abs/2410.07177
为了建立以自我为中心的视频理解的多模态基础模型,来自苹果、香港科技大学和加州大学洛杉矶分校的研究团队从三个方面开展工作。
1. 由于缺乏用于自我中心视频理解的问答(QA)数据,他们开发了一个数据引擎,它能根据人类标注的数据,高效地生成 7M 个高质量的自我中心视频 QA 样本,样本长度从 30 秒到 1 小时不等。这是目前最大的以自我为中心的 QA 数据集。
2. 他们提供了一个具有挑战性的以自我为中心的 QA 基准,其中包含 629 个视频和 7026 个问题,用于评估模型在不同长度视频中识别和记忆视觉细节的能力。他们提出了一种新的去偏差评估方法,以帮助减轻被评估模型中不可避免的语言偏差。
3. 他们提出了一种专门的多模态架构,具有新颖的“内存指针提示”机制。这一设计包括一个全局一瞥步骤,以获得对整个视频的总体理解并识别关键视觉信息,然后是一个后退步骤,利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。
4
将 MLLM 作为检索器:用于具身智能体的交互式学习多模态检索
论文链接:https://arxiv.org/abs/2410.03450
为了解决这个问题,北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever(MART),通过利用交互数据来微调基于偏好学习的 MLLM Retriever,使 Retriever 充分考虑轨迹的有效性,并在未见任务中优先考虑它们,从而提高具身智能体的性能。他们还提出了“轨迹提取”(Trajectory Abstraction)机制,该机制利用 MLLM 的概括能力,在保留关键信息的同时用更少的 token 来表示轨迹,从而使智能体能够更好地理解轨迹。
各种环境下的实验结果表明,与基线方法相比,他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性,提出了在具身智能体中进行多模态检索的新范例。
5
LLaVA-Critic:首个开源多模态大模型通用评测器
论文链接:https://arxiv.org/abs/2410.02712
来自字节跳动和马里兰大学的研究团队发布了首个用于多任务评测的开源多模态大模型LLaVA-Critic,旨在启发社区开发通用大模型评测器(generalist evaluator)。
1. 首先,该团队构建了一个涵盖了多样化评测场景和评分标准的评测指令遵循数据集(critic instruction-following dataset);
2. 之后,在这一数据集上训练 LLaVA-Critic,使之学会对模型回复给出合理评分(judgement)和打分依据(reason);
图:LLaVA-Critic-113k 数据集,共计包含 46k 张图片和 113k 个评测数据样本
上方的柱状图进一步直观展示了 LLaVA-Critic 的反馈对 LLaVA-OneVision 模型在视觉问答性能上的提升效果。可见,LLaVA-Critic 作为一种提供有效奖励信号的可扩展方案,不仅减少了对昂贵人工反馈的依赖,还通过 AI 生成的反馈进一步优化了模型的偏好对齐效果。