首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Mistral 发布开源多模态模型 Pixtral Large，聊天助手 Le Chat 全面对标 ChatGPT

学术 2024-11-19 12:13 北京

今日凌晨，Mistral AI 发布了最新开源多模态模型 Pixtral Large，该模型基于 Mistral Large 2 构建，展示出强大的图像理解能力，能够理解文档、图表和自然图像，同时还保持了 Mistral Large 2 优秀的纯文本理解能力。

据介绍，该模型具有强大的多模态性能，在 MathVista、DocVQA、VQAv2 上达到了 SORA，能够在不影响文本性能的前提下对 Mistral Large 2 进行扩展并具有 123B 多模态解码器、1B 参数视觉编码器以及 128K 的上下文窗口。

同时，他们的 AI 聊天助手 le Chat 也新增了网页搜索、画布、文件理解和图像生成等功能。

最新基础模型 Pixtral Large

Mistral AI 通过一套通用测试工具，在一组标准多模态基准上将 Pixtral Large 与前沿模型进行比较。他们使用 MathVista 评估模型在视觉数据的复杂数学推理方面的性能，在这项测试中，Pixtral Large 实现了 69.4% 的准确率，优于所有其他模型。为了评估复杂图表和文档的推理能力，他们使用 ChartQA 和 DocVQA 评估性能，结果显示 Pixtral Large 超越了 GPT-4o 和 Gemini-1.5 Pro。

图｜在使用 MathVista、ChartQA 和 DocVQA 评估性能时，Pixtral Large 均优于其他模型。

最后，Pixtral Large 在 MM-MT-Bench 上展示了具有竞争性的能力，表现优于 Claude-3.5 Sonnet（新版）、Gemini-1.5 Pro 和 GPT-4o（最新版）。MM-MT-Bench 是一种开源的、基于评判的评估，旨在反映多模态 LLM 的实际用例。

图｜Pixtral Large 在 MM-MT-Bench 上展示了竞争性能力。

以下是 Pixtral Large 的一些能力展示：

多语言 OCR 和推理

提示（Prompt）：

我买了咖啡和香肠。我需要付多少钱？加上 18% 的小费。

回复：

要计算出你需支付的总金额（包含 18% 的小费），请按以下步骤操作：

1.计算咖啡和香肠的费用：

2 杯拿铁玛奇朵：2 × 4.50 瑞士法郎 = 9.00 瑞士法郎
1 份炸猪排：22.00 瑞士法郎
咖啡和香肠的总费用：9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎

2.计算 18% 的小费：

小费：31.00 瑞士法郎 × 0.18 = 5.58 瑞士法郎

3.将小费加到总费用上：

应付总金额：31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎

所以，你总共需支付 36.58 瑞士法郎。

图表理解

提示：

dark dragon 项目何时开始出现问题？

回复：

“dark-dragon-50” 模型的训练损失在大约 10,000 步时开始呈现出明显的不稳定状态。此时损失值出现了显著的峰值，并且这种不稳定状态持续，在大约 20,000 步时又出现了一个较大的峰值。这些峰值表明“dark-dragon-50” 模型的训练过程从大约 10,000 步时开始遇到问题。

图像理解

提示：

哪些公司使用由 Mistral AI 制作的模型？

回复：

如图所示，使用由 Mistral AI 制作的模型的公司有：

1.法国巴黎银行（BNP Paribas）

2.Brave

3.Cloudflare

4.CMA CGM

5.Front

进一步对标 ChatGPT

Mistral AI 已开始着力于人工智能交互界面的投入，首先他们对 le Chat 进行了一些重大更新。Le Chat 是 Mistral AI 推出的免费生成式人工智能办公助手。

以下是 le Chat（测试版）新能力的简要概述：

带引文的网页搜索
用于构思、在线编辑和导出的 Canvas
SOTA 文档和图像理解技术，由 Pixtral Large 提供支持
由 Black Forest Labs 的 Flux Pro 提供支持的图像生成功能
从模型到输出的全集成式服务
通过推测性编辑实现更快的响应

以下是 le Chat 与当今市场上领先的聊天和搜索助手的比较：

具体而言：

网页搜索

le Chat 的大部分用户来自学生和专业人士，他们将其用于学习、研究和工作。为了更好地促进这些用例，Mistral AI 通过互联网搜索增强了 le Chat 的训练知识。

视频｜这是一位营销队友使用它来评估医疗保健领域的人工智能市场的实例。

Canvas 画布

Canvas 是一个新的界面，当用户需要超越对话并进行构思时，它会弹出到用户的 le Chat 窗口中。它使用户能够与 Mistral LLM 合作完成共享输出，从而实现知识工作的 0-1 创作和构思。

Canvas 不再局限于双向对话，借助 LLM 强大的推理能力，可以直接修改、编辑或转换内容。

视频｜Mistral LLM 为准备推出 Canvas 而创建产品指标仪表板的反应模型的视频。

用户可以使用 Canvas 创建文档、演示文稿、代码、模型……等等。可以就地修改其内容而无需重新生成响应、版本控制草稿并预览设计。Canvas 可以让任何团队发挥无限的创意。

快速准确的文档理解

Le Chat 现在可以处理大型、复杂的 PDF 文档和图像，进行分析和总结。只需将文档附加到聊天栏，即可了解所有内容——图形、表格、图表、文本、公式、方程式……基本上是整个文档。

这些功能是由新的 Pixtral Large 实现的，与实验模型结合使用比之前的视觉模型 Pixtral 12B 强大得多。

视频｜展示了对爱因斯坦、波多尔斯和罗森在 1935 年撰写的著名量子纠缠论文的信息提取、总结和语义理解。

图像生成

Mistral AI 与 Black Forest Labs 合作，将后者领先的图像生成模型引入 le Chat。现在，用户可以直接在 le Chat 中生成高质量的图像。

智能体

如果用户会重复使用某些提示内容，或者已经确定了某些希望能实现自动化的创意工作模式，那么用户可以将这些工作流程编写成智能体（agents）。常见的应用场景包括为费用报销进行收据扫描、为冗长的会议纪要生成摘要，以及发票处理等。

这些智能体可以发布并分享给团队成员。用户可以反复进行构思，构建功能愈发强大的智能体，以帮助自己更高效地完成工作。

整理：阮文韵

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593790&idx=2&sn=8ac1edc5505a6e37c8ab7b3f6c090d60

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

最新文章

谷歌AlphaQubit重磅发布，实时为量子计算机纠错，研究登上Nature

机器人「手转」钢笔，100% 成功率；文继荣团队：通过奖励引导树搜索增强 LLM 推理｜大模型日报

五大建议！OpenAI最强竞对Anthropic：正确的大模型评测应该是怎样的？

大模型后训练新范式，中科院、阿里和小红书团队提出“验证器工程”｜大模型日报

清华、北大团队推出LLaVA-o1：让视觉语言模型逐步推理；快手推出检索框架KuaiFormer｜大模型日报

大揭密！马斯克与 OpenAI 的「混乱分手」内幕：人才争夺、AGI、权力斗争

Mistral 发布开源多模态模型 Pixtral Large，聊天助手 Le Chat 全面对标 ChatGPT

清华姚班校友马腾宇，发布了他的首个多模态嵌入模型：「多模态检索」实现SOTA

综述：智能体的安全、隐私和道德威胁；FinVision：用于股市预测的多智能体框架｜大模型日报

AI反诈“奶奶”上线，24小时花式套路诈骗分子；AMD 全球裁员4%，约1000人｜一周热门

性能提升在即！吴恩达谈 LLM 新方向：优化智能体工作流

国防科技大学推出 AI 材料科学家 MatPilot；Anthropic 提出 LLM 越狱缓解新方法｜大模型日报

Science最新封面：AI大模型跨越物种边界、解码生命“密码全书”，基因组学进入全新时代

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉