Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B,如今,Pixtral 12B 技术报告全公开。
主页: https://mistral.ai/news/pixtral-12b/
论文地址:https://arxiv.org/abs/2410.07073
开源代码:https://github.com/mistralai
Mistral AI 发布了最新开源多模态模型 Pixtral Large,该模型基于 Mistral Large 2 构建,展示出强大的图像理解能力,能够理解文档、图表和自然图像,同时还保持了 Mistral Large 2 优秀的纯文本理解能力。
Mistral 的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。
此外,Mistral 还开源了一个新的多模态基准测试 MM-MT-Bench,用于在实际场景中评估视觉语言模型。
Pixtral Large 是 Mistral AI 多模态家族中的第二个模型。
Pixtral Large 旨在通过大规模数据训练,提供高效的语言理解和生成能力。它支持中文、法文、英文等十多种主流语言,适用于多种自然语言处理任务,如文本生成、翻译和问答等。
Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。
Pixtral Large 上下文窗口为 128K,至少可以处理 30 张高分辨率图像或大约一本 300 页的书,这相当于领先的 OpenAI GPT 系列模型的能力。
根据测试数据显示:
Pixtral Large 在 MMMU、MathVista、ChartQA、DocVQA、VQAv2 等基准测试的数据,超过了 GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B,成为目前最强的开源多模态模型。
Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。
在 MathVista 基准上,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。在 ChartQA 和 DocVQA 基准上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。
体验地址:https://chat.mistral.ai/chat
le Chat 是一个免费的支持PDF理解、网络搜索、Canvas、AI Agent、图片生成的多模态AI助手。
le Chat 能够处理大型、复杂的PDF文档和图像,得益于最新的多模态模型 Pixtral Large,能够分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。
例如,它可以轻松解析著名的量子纠缠论文,展示出信息提取、总结和语义理解的强大能力。
在这次更新中:
le Chat 引入实时的网络搜索功能:用户可以直接在聊天界面中搜索互联网上的最新信息,并获取带有引用链接的答案。对于学生和专业人士来说非常有帮助,可以在准备研究报告或学术论文时,快速准确地获取资料和数据。
le Chat 推出全新的 Canvas 功能:支持想法的构思允许内联编辑和导出,极大地提高了创意工作的效率。用户可以在Canvas上进行头脑风暴、编辑内容,并将其导出为各种格式,方便进一步使用。
le Chat 提供 AI Agent 功能:用户可以将特定类型的工作流程编码为 Agent,然后发布并与团队成员共享,实现更高效的工作流管理和自动化操作。常见的使用场景包括收据扫描、费用报告、会议纪要的总结和发票处理等。
le Chat 图像生成功能:Mistral AI 与 Black Forest Labs 合作,将后者领先的图像生成模型引入 le Chat。现在,用户可以直接在 le Chat 中生成高质量的图像。
在性能提升方面,le Chat 通过投机性编辑技术,显著提高了响应速度,用户可以更快地获得高质量的回答和建议,提高了整体的工作效率。
同时,le Chat 提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。
MM-MT-Bench 总共包含92个对话(单回合对话69个,2回合对话18个,3回合对话4个,4回合对话1个),涵盖了广泛的实际使用案例,包括五类图像:图表、表格、PDF页面 、示意图和杂项。
MM-MT-Bench 旨在模拟视觉语言模型的实际使用,用于提取、总结和推理图像内容。