Molmo,开源多模态模型正在发力!
体验链接:https://huggingface.co/collections/allenai/molmo-66f379e6fe3b8ef090a8ca19
论文链接:https://molmo.allenai.org/paper.pdf
各大多模态模型的开源程度
数据集链接:https://docs.google.com/forms/u/0/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/formResponse?pli=1
Molmo 用红色的波纹标出了自己识别的对象。
PixMo:数据质量胜过数量
PixMo-Cap:用于预训练 VLM 的数据集,可让其理解图像细节,其中包含 71.2 万张不同图像和大约 130 万个密集图像描述。 PixMo-AskModelAnything:其设计目标是让 AI 模型可回答有关图像的不同问题。其中包含 16.2 个问答对,涉及 7.3 万图像。其中问题由人类标注者编写,答案则来自一个语言模型。 PixMo-Points:其中的图像描述数据是关于图像中物体的位置。该数据集包含 230 万个问题 - 位置点对,涉及 42.8 万张图像。 PixMo-CapQA:包含 21.4 万个问答对,涉及 16.5 万个使用语言模型生成的图像描述。 PixMo-Docs:包含 25.5 万张带有大量文本和图表(表格、文档、图表)的图像,还有语言模型生成的相应代码。另有 230 万对基于生成的代码生成的问答。 PixMo-Clocks:这是一个合成数据集,其中包含 82.6 万张不同款式的模拟时钟图像,以及有关相应时间的问答。
基准评估和大规模人类偏好排名
Molmo 系列模型中最高效的是 MolmoE-1B,其基于完全开放的 OLMoE-1B-7B 混合专家 LLM,在学术基准和人类评估上的表现接近 GPT-4V。 在学术基准和人类评估基准上,两个 Molmo-7B 模型的表现大概在 GPT-4V 和 GPT-4o 之间,并且在这两个基准上均显著优于近期发布的 Pixtral 12B 模型。 表现最好的 Molmo-72B 在学术基准上取得了最高分,但人类评估基准上则仅次于 GPT-4o,居于第二。 表现最好的 Molmo-72B 也胜过当前最佳的一些专有系统,包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。
Ai2 首席执行官 Ali Farhadi
模型架构
预处理器,其作用是将输入图像转换为一组多尺寸和经过不同裁剪的图像; ViT 图像编码器,其作用是将每一张图像都独立映射成一组视觉 token; 连接器,其作用是使用 MLP 将视觉 token 投影成语言模型的输入维度,然后汇集视觉 token 以减少其数量; 仅解码器 Transformer LLM。
多模态预训练,以使用他们新收集的描述数据生成描述; 使用上述混合数据集进行监督式微调。
发布计划
MolmoE-1B,由 1B(活跃参数量)的专家模型构成的混合专家模型,共 7B Molmo-7B-O,最开放的 7B 模型 Molmo-7B-D,演示版本的模型 Molmo-72B,表现最佳的模型
一份详细的技术报告 PixMo 系列数据集 更多模型权重和检查点 训练和评估代码