大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

文摘 2024-10-16 09:00 广东

苹果推出 300 亿参数多模态大模型 MM1.5：文本密集、多图理解

独特的异国风情外，独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头，悬在车外。他们以独特的视角游览独立大街，又成了街上其他人眼中的风景。

论文地址：https://arxiv.org/pdf/2409.20566

近日，苹果公司推出了升级版的多模态AI大模型——MM1.5。

MM1.5 以前代MM1模型为基础，采用数据为中心的方法进行训练，显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力。

MM1.5 提供了从10亿到300亿的多种参数规模，涵盖密集和专家混合（MoE）模型，即使较小的尺寸也有优异的表现。

MM1.5 保留了与 MM1 相同的模型架构，并将改进的努力集中在以下几个关键方面：

持续预训练：团队在 MM1.5 的持续预训练阶段引入了高质量的 OCR 数据和合成图像描述，显著提升了模型对包含大量文本的图像的理解能力。
监督式微调：研究人员在监督式微调阶段分析了不同数据类型对模型表现的影响，优化了视觉指令微调数据的混合方式，从而为模型实现了更高的效率，团队表示，即便是小规模的模型（10、30 亿参数版本）也能表现出色。

图：模型训练包含三个阶段：(i) 使用低分辨率图像 (378×378) 进行大规模预训练；(ii) 使用高分辨率（高达4M像素）OCR数据和合成字幕进行持续预训练；(iii) 监督微调（SFT）。

PVIT：港科大团队提出“个性化视觉指令微调”

独特的异国风情外，独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头，悬在车外。他们以独特的视角游览独立大街，又成了街上其他人眼中的风

论文链接：https://arxiv.org/abs/2410.07113

多模态大语言模型（MLLMs）最近取得了重大进展；然而，这些模型表现出明显的局限性，即“脸盲”（face blindness）。具体来说，它们可以进行一般对话，但无法针对特定个人进行个性化对话。这一缺陷阻碍了 MLLM 在个性化环境中的应用，例如移动设备上的定制视觉助手，或需要识别家庭成员的家用机器人。

在这项工作中，来自香港科技大学和伊利诺伊大学香槟分校的研究团队提出了个性化视觉指令微调（PVIT），这是一种新颖的数据整理和训练框架，旨在使 MLLMs 能够识别图像中的目标个体，并进行个性化和连贯的对话。他们的方法包括开发一个复杂的管道，它能自主生成包含个性化对话的训练数据。该管道充分利用了各种视觉专家、图像生成模型和（多模态）大语言模型的能力。

为了评估 MLLM 的个性化潜力，他们提出了一个名为 P-Bench 的基准，其中包含不同难度的各种问题类型。实验表明，在使用精心策划的数据集进行微调后，个性化性能得到了大幅提升。

苹果推出多模态大语言模型 MM-Ego

论文链接：https://arxiv.org/abs/2410.07177

为了建立以自我为中心的视频理解的多模态基础模型，来自苹果、香港科技大学和加州大学洛杉矶分校的研究团队从三个方面开展工作。

1. 由于缺乏用于自我中心视频理解的问答（QA）数据，他们开发了一个数据引擎，它能根据人类标注的数据，高效地生成 7M 个高质量的自我中心视频 QA 样本，样本长度从 30 秒到 1 小时不等。这是目前最大的以自我为中心的 QA 数据集。

2. 他们提供了一个具有挑战性的以自我为中心的 QA 基准，其中包含 629 个视频和 7026 个问题，用于评估模型在不同长度视频中识别和记忆视觉细节的能力。他们提出了一种新的去偏差评估方法，以帮助减轻被评估模型中不可避免的语言偏差。

3. 他们提出了一种专门的多模态架构，具有新颖的“内存指针提示”机制。这一设计包括一个全局一瞥步骤，以获得对整个视频的总体理解并识别关键视觉信息，然后是一个后退步骤，利用关键视觉信息生成响应。这使模型能够更有效地理解扩展视频内容。

有了这些数据、基准和模型，他们成功地建立了以自我为中心的多模态大语言模型 MM-Ego，它在以自我为中心的视频理解方面表现出了强大的性能。

将 MLLM 作为检索器：用于具身智能体的交互式学习多模态检索

独特的异国风情外，独立大街特有的红色电车是吸引游客的另一道风景。电车上经常有年轻人扒着车头，悬在车外。他们以独特的视角游览独立大街，又成了街上其他人MLLM 智能体通过检索与任务相关的多模态轨迹数据，在复杂的具身任务中展现出了潜力。然而，目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性，而忽略了它们对手头特定任务的有效性。

论文链接：https://arxiv.org/abs/2410.03450

MLLM 智能体通过检索与任务相关的多模态轨迹数据，在复杂的具身任务中展现出了潜力。然而，目前的检索方法主要关注轨迹中文本或视觉线索的表面相似性，而忽略了它们对手头特定任务的有效性。

为了解决这个问题，北京大学团队及其合作者提出了一种新方法——MLLM as ReTriever（MART），通过利用交互数据来微调基于偏好学习的 MLLM Retriever，使 Retriever 充分考虑轨迹的有效性，并在未见任务中优先考虑它们，从而提高具身智能体的性能。他们还提出了“轨迹提取”（Trajectory Abstraction）机制，该机制利用 MLLM 的概括能力，在保留关键信息的同时用更少的 token 来表示轨迹，从而使智能体能够更好地理解轨迹。

各种环境下的实验结果表明，与基线方法相比，他们的方法显著提高了未见场景中任务的成功率。这项工作通过微调通用 MLLM 作为检索器来评估轨迹的有效性，提出了在具身智能体中进行多模态检索的新范例。

LLaVA-Critic：首个开源多模态大模型通用评测器

论文链接：https://arxiv.org/abs/2410.02712

来自字节跳动和马里兰大学的研究团队发布了首个用于多任务评测的开源多模态大模型LLaVA-Critic，旨在启发社区开发通用大模型评测器（generalist evaluator）。

1. 首先，该团队构建了一个涵盖了多样化评测场景和评分标准的评测指令遵循数据集（critic instruction-following dataset）；

2. 之后，在这一数据集上训练 LLaVA-Critic，使之学会对模型回复给出合理评分（judgement）和打分依据（reason）；

3. 更进一步，在多模态评测（LMM-as-a-Judge）和偏好学习（preference learning）两个场景中验证了 LLaVA-Critic 的有效性。

图：LLaVA-Critic-113k 数据集，共计包含 46k 张图片和 113k 个评测数据样本

场景一：多模态大模型作为评测器（LMM-as-a-Judge）

该团队首先对 LLaVA-Critic 模型在多个多模态评测任务中与 GPT-4o 以及人类的打分一致性进行了验证。

场景二：偏好学习（Preference Learning）

LLaVA-Critic 的评测能力也可用于比较成对模型回复的好坏，从而作为奖励信号应用于 RLHF 和 DPO 等强化学习算法。实验中，该团队将 LLaVA-Critic 用于迭代直接偏好优化（iterative DPO）算法。

上方的柱状图进一步直观展示了 LLaVA-Critic 的反馈对 LLaVA-OneVision 模型在视觉问答性能上的提升效果。可见，LLaVA-Critic 作为一种提供有效奖励信号的可扩展方案，不仅减少了对昂贵人工反馈的依赖，还通过 AI 生成的反馈进一步优化了模型的偏好对齐效果。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉