Mistral AI 再发力!最强开源多模态模型 Pixtral Large!对标ChatGPT全面升级le Chat!

文摘   2024-11-20 12:49   广东  

Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B,如今,Pixtral 12B 技术报告全公开。

  • 主页: https://mistral.ai/news/pixtral-12b/

  • 论文地址:https://arxiv.org/abs/2410.07073

  • 开源代码:https://github.com/mistralai

从论文的测试结果来看,Pixtral 12B 明显优于其他类似大小的开源模型(比如 Llama-3.2 11B 和 Qwen-2-VL 7B),甚至在一些评测中,表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好

Mistral AI 发布了最新开源多模态模型 Pixtral Large,该模型基于 Mistral Large 2 构建,展示出强大的图像理解能力,能够理解文档、图表和自然图像,同时还保持了 Mistral Large 2 优秀的纯文本理解能力。

Mistral 的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。

此外,Mistral 还开源了一个新的多模态基准测试 MM-MT-Bench,用于在实际场景中评估视觉语言模型。

PART.01


开源多模态大模型 Pixtral Large


Pixtral Large 是 Mistral AI 多模态家族中的第二个模型。

Pixtral Large 旨在通过大规模数据训练,提供高效的语言理解和生成能力。它支持中文、法文、英文等十多种主流语言,适用于多种自然语言处理任务,如文本生成、翻译和问答等。

Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K,至少可以处理 30 张高分辨率图像或大约一本 300 页的书,这相当于领先的 OpenAI GPT 系列模型的能力。

根据测试数据显示:

  • Pixtral Large 在 MMMU、MathVista、ChartQA、DocVQA、VQAv2 等基准测试的数据,超过了 GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B,成为目前最强的开源多模态模型

  • Pixtral Large MM-MT-Bench 上也展示了强有力的竞争力,优于 Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro 和 GPT-4o(最新版)。

  • MathVista 基准上,Pixtral Large 实现了 69.4% 的准确率,优于所有其他模型。在 ChartQA 和 DocVQA 基准上, Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。



PART.02


对标 ChatGPT 全面升级 le Chat


除了发布新模型,Mistral AI 还进一步升级了免费聊天机器人 le Chat增加图像生成、网络搜索和交互式画布功能,全面对标 ChatGPT。

体验地址:https://chat.mistral.ai/chat

le Chat 是一个免费的支持PDF理解、网络搜索、Canvas、AI Agent、图片生成的多模态AI助手。

le Chat 能够处理大型、复杂的PDF文档和图像,得益于最新的多模态模型 Pixtral Large,能够分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。

例如,它可以轻松解析著名的量子纠缠论文,展示出信息提取、总结和语义理解的强大能力。

le Chat 功能

在这次更新中:

  • le Chat 引入实时的网络搜索功能:用户可以直接在聊天界面中搜索互联网上的最新信息,并获取带有引用链接的答案。对于学生和专业人士来说非常有帮助,可以在准备研究报告或学术论文时,快速准确地获取资料和数据。

  • le Chat 推出全新的 Canvas 功能:支持想法的构思允许内联编辑和导出,极大地提高了创意工作的效率。用户可以在Canvas上进行头脑风暴、编辑内容,并将其导出为各种格式,方便进一步使用。

  • le Chat 提供 AI Agent 功能:用户可以将特定类型的工作流程编码为 Agent,然后发布并与团队成员共享,实现更高效的工作流管理和自动化操作。常见的使用场景包括收据扫描、费用报告、会议纪要的总结和发票处理等。

  • le Chat 图像生成功能:Mistral AI 与 Black Forest Labs 合作,将后者领先的图像生成模型引入 le Chat。现在,用户可以直接在 le Chat 中生成高质量的图像。

在性能提升方面,le Chat 通过投机性编辑技术,显著提高了响应速度,用户可以更快地获得高质量的回答和建议,提高了整体的工作效率。

同时,le Chat 提供了一个从模型到输出的完全集成平台,用户可以在一个平台上完成所有的多模态任务,无需在多个工具之间切换,简化了工作流程。

PART.03


全新多模态基准测试 MM-MT-Bench


MM-MT-Bench 是一种开源的、基于评判的评估,风格与纯文本的 MT-Bench 类似,旨在反映多模态 LLM 的实际用例。

MM-MT-Bench 总共包含92个对话(单回合对话69个,2回合对话18个,3回合对话4个,4回合对话1个),涵盖了广泛的实际使用案例,包括五类图像:图表、表格、PDF页面 、示意图和杂项。

实验测试结果表明,MM-MT-Bench 的性能与 LMSys Vision 排行榜上的 ELO 排名高度相关(皮尔逊相关系数为 0.91)

MM-MT-Bench 旨在模拟视觉语言模型的实际使用,用于提取、总结和推理图像内容。

图 12 提供了每个类别中具有代表性的图像,图 11 则提供了视觉语言模型的额定模型响应示例。

HsuDan
拥抱AI技术,分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。
 最新文章