Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

文摘 2024-11-20 12:49 广东

Mistral AI 在 9 月份甩出了自家的首款多模态大模型 Pixtral 12B，如今，Pixtral 12B 技术报告全公开。

主页: https://mistral.ai/news/pixtral-12b/
论文地址：https://arxiv.org/abs/2410.07073
开源代码：https://github.com/mistralai

从论文的测试结果来看，Pixtral 12B 明显优于其他类似大小的开源模型（比如 Llama-3.2 11B 和 Qwen-2-VL 7B），甚至在一些评测中，表现比 Meta 家的多模态老大哥 Llama-3.2 90B 还要好。

Mistral AI 发布了最新开源多模态模型 Pixtral Large，该模型基于 Mistral Large 2 构建，展示出强大的图像理解能力，能够理解文档、图表和自然图像，同时还保持了 Mistral Large 2 优秀的纯文本理解能力。

Mistral 的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。

此外，Mistral 还开源了一个新的多模态基准测试 MM-MT-Bench，用于在实际场景中评估视觉语言模型。

PART.01

开源多模态大模型 Pixtral Large

Pixtral Large 是 Mistral AI 多模态家族中的第二个模型。

Pixtral Large 旨在通过大规模数据训练，提供高效的语言理解和生成能力。它支持中文、法文、英文等十多种主流语言，适用于多种自然语言处理任务，如文本生成、翻译和问答等。

Pixtral Large 包括一个 1230 亿参数解码器和一个 10 亿参数视觉编码器，使其在文本和视觉数据处理方面均表现出色。

Pixtral Large 上下文窗口为 128K，至少可以处理 30 张高分辨率图像或大约一本 300 页的书，这相当于领先的 OpenAI GPT 系列模型的能力。

根据测试数据显示：

Pixtral Large 在 MMMU、MathVista、ChartQA、DocVQA、VQAv2 等基准测试的数据，超过了 GPT-4o、Gemini-1.5 Pro、Claude-3.5 Sonnet、Llama-3.2 90B，成为目前最强的开源多模态模型。
Pixtral Large 在 MM-MT-Bench 上也展示了强有力的竞争力，优于 Claude-3.5 Sonnet（新版）、Gemini-1.5 Pro 和 GPT-4o（最新版）。
在 MathVista 基准上，Pixtral Large 实现了 69.4% 的准确率，优于所有其他模型。在 ChartQA 和 DocVQA 基准上， Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

PART.02

对标 ChatGPT 全面升级 le Chat

除了发布新模型，Mistral AI 还进一步升级了免费聊天机器人 le Chat，增加图像生成、网络搜索和交互式画布功能，全面对标 ChatGPT。

体验地址：https://chat.mistral.ai/chat

le Chat 是一个免费的支持PDF理解、网络搜索、Canvas、AI Agent、图片生成的多模态AI助手。

le Chat 能够处理大型、复杂的PDF文档和图像，得益于最新的多模态模型 Pixtral Large，能够分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。

例如，它可以轻松解析著名的量子纠缠论文，展示出信息提取、总结和语义理解的强大能力。

le Chat 功能

在这次更新中：

le Chat 引入实时的网络搜索功能：用户可以直接在聊天界面中搜索互联网上的最新信息，并获取带有引用链接的答案。对于学生和专业人士来说非常有帮助，可以在准备研究报告或学术论文时，快速准确地获取资料和数据。
le Chat 推出全新的 Canvas 功能：支持想法的构思允许内联编辑和导出，极大地提高了创意工作的效率。用户可以在Canvas上进行头脑风暴、编辑内容，并将其导出为各种格式，方便进一步使用。
le Chat 提供 AI Agent 功能：用户可以将特定类型的工作流程编码为 Agent，然后发布并与团队成员共享，实现更高效的工作流管理和自动化操作。常见的使用场景包括收据扫描、费用报告、会议纪要的总结和发票处理等。
le Chat 图像生成功能：Mistral AI 与 Black Forest Labs 合作，将后者领先的图像生成模型引入 le Chat。现在，用户可以直接在 le Chat 中生成高质量的图像。

在性能提升方面，le Chat 通过投机性编辑技术，显著提高了响应速度，用户可以更快地获得高质量的回答和建议，提高了整体的工作效率。

同时，le Chat 提供了一个从模型到输出的完全集成平台，用户可以在一个平台上完成所有的多模态任务，无需在多个工具之间切换，简化了工作流程。

PART.03

全新多模态基准测试 MM-MT-Bench

MM-MT-Bench 是一种开源的、基于评判的评估，风格与纯文本的 MT-Bench 类似，旨在反映多模态 LLM 的实际用例。

MM-MT-Bench 总共包含92个对话（单回合对话69个，2回合对话18个，3回合对话4个，4回合对话1个），涵盖了广泛的实际使用案例，包括五类图像：图表、表格、PDF页面、示意图和杂项。

实验测试结果表明，MM-MT-Bench 的性能与 LMSys Vision 排行榜上的 ELO 排名高度相关（皮尔逊相关系数为 0.91）。

MM-MT-Bench 旨在模拟视觉语言模型的实际使用，用于提取、总结和推理图像内容。

图 12 提供了每个类别中具有代表性的图像，图 11 则提供了视觉语言模型的额定模型响应示例。

HsuDan

拥抱AI技术，分享人工智能、机器学习、数据分析等多个领域的优质资讯、学习资源、实践案例、开源项目及开发工具。

最新文章

DeepSeek-R1 成为首个与OpenAI o1比肩的开源推理模型！

首份《人工智能安全指数报告》发布，Anthropic 获得最高安全评级，中国智谱上榜

9h打通顶会壁垒！实现1天内复现任意顶会文章！

【最新开源】VITA-1.5：实时视觉与语音交互，1.5秒互动延迟

【2024年终总结】2024 年最具影响力的AI论文 Part 1

60k感知算法岗面试，考察热门Occ算法及难点！

【2024年终总结】2024年“大模型 & AI应用”值得推荐的好书

【2024年终总结】2024年最值得读的 AI 论文

【2024年终总结】2024年AI大模型总结报告|Artificial Analysis

Artificial Analysis：2024年AI大模型总结报告

端侧AI | 小模型 | SLM（11月-12月）

智源发布 FlagEval 全球100+大模型综合评测结果！国产大模型拿下多个冠军！

NeurIPS 2024 最佳论文揭晓！北大、字节跳动「VAR模型」获最佳论文！

国内“推理模型”卷疯了！类 o1 推理模型，谁更强？

中国生成式AI大会即将登陆上海，全解大模型、AI Infra、端侧AI、视频生成和具身智能，40+位重磅嘉宾抢先看！

吴恩达开源大模型套件 aisuite：一个接口，可调用11个模型平台

清华、北大团队推出 LLaVA-o1：首个自发性视觉 AI 模型

Mistral AI 再发力！最强开源多模态模型 Pixtral Large！对标ChatGPT全面升级le Chat！

【大模型前沿】FinVision：一种用于股市预测的多智能体框架！

【必读】2024 人工智能全景报告《State of AI Report 2024》

最强表格AI问世，浙大开源 TableGPT2！

ChatGPT“频频翻车”，国内「AI搜索」新高度，天工、知乎「专业搜索」很能打！

刚刚，ChatGPT变身”AI搜索”，免费用！

最新开源：英伟达开源Nemotron 70B刷爆SOTA，仅次于o1！

大模型前沿|MLLM篇：苹果多模态模型大升级！首个开源MLLM通用评测器LLaVA-Critic！

大模型前沿|MLLM篇：港科大团队提出PVIT；苹果推出MM-Ego；北大将MLLM作为检索器；首个开源MLLM通用评测器...

6天6奖！2024年诺贝尔奖花落谁家？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉