Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

2024-09-13 17:03 中国香港

前沿科技速递🚀

近日，Mistral AI 发布了其首款多模态大模型——Pixtral 12B。作为一款具有语言与视觉处理能力的模型，Pixtral 12B 支持高达1024×1024像素的图像，具备强大的文本生成、图像理解与生成能力，能够处理复杂的文本与图像任务，在OCR、图像分类、问答系统等场景表现出色。

来源：传神社区

01 Mistral AI推出Pixtral 12B

Mistral AI是一家专门从事人工智能（AI）产品的法国公司。该公司由Meta Platforms和Google DeepMind的前员工于2023年4月成立，并迅速在人工智能领域确立了自己的地位。该公司专注于生产大型开源语言模型，强调了自由和开源软件的创始重要性，并将自己定位为专有模型的替代品。

最近，Mistral AI刚刚推出了其第一个名为Pixtral 12B的多模态模型，与OpenAI和Anthropic等公司竞争。这个120亿参数模型能够同时处理图像和文本，目前使用其Nemo 12B文本模型。该模型的大小为24 GB，理论上应该能够执行任务，如为图像添加字幕和计算照片上的对象数量。

02 Pixtral 12B的技术亮点

先进的神经网络架构

Pixtral 12B 是基于先进的 Transformer 架构设计的，具备 40 层神经网络、14,336 个隐藏维度以及 32 个注意力头。该设计赋予它强大的计算能力，尤其擅长处理多模态数据，在大规模图像处理和语言生成任务中表现尤为突出。

专业的视觉编码器

Pixtral 12B 配备了一个专门用于图像处理的视觉编码器，能够处理分辨率高达 1024×1024 像素的图像，并包含 24 层隐藏层。这种架构不仅使其能够高效处理复杂的图像任务，还与语言处理模块无缝衔接，使其在 OCR（光学字符识别）、图像分类和图表解析等任务中表现优异。

强大的多模态融合

Pixtral 12B 的多模态能力源自其对文本、图像和 URL 数据的整合处理。通过统一建模，它能够在语言与视觉任务间实现深度融合，擅长复杂的问答系统、图像理解、多图像比较及视频分析等任务，展现出卓越的性能。

出色的语言与图像处理能力

该模型支持长达 131072 个 tokens 的上下文长度，使其在处理长文本和复杂对话时游刃有余。此外，其视觉模块可以处理高分辨率图像，尤其在多帧图像比较和视频总结任务中表现强劲。

技术创新与优化

Pixtral 12B 采用了 GeLU（高斯误差线性单元）激活函数和 2D ROPE（旋转位置嵌入）技术，用以提升视觉编码器的性能。这些技术不仅增强了模型的推理能力，还显著提高了其在高分辨率图像处理中的精度和速度，确保了其在视觉任务中的领先地位。

精细优化与多语言支持

Pixtral 12B 的语言处理模块经过精细调优，特别在语言生成和问答任务中表现出色。通过引入高质量的多语言数据集，模型支持多语言处理，适用于多种语言环境下的任务执行，具备广泛的全球应用前景。

03 模型表现如何？数据告诉你！

根据公开的基准测试结果，Pixtral 12B 在多模态任务中表现突出。相比 Qwen2-VL-7B、LLaVA-OV-7B 和 Phi-3 Vision 等同类模型，Pixtral 12B 在多模态推理、问答系统、图像理解等任务上均表现优异，尤其是在图像生成和高级图像处理任务上处于领先地位。这不仅展示了该模型在视觉处理中的强大效能，也证明了其在语言和图像任务融合方面的领先技术。

Pixtral 也具备非常出色的解释和推理能力。具体指标上，Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型（主要是开放模型，并没有 GPT-4o 和 Claude-3.5 Sonnet）。多模态问答性能也表现卓越，处于领先位置。

多模态指令遵从以及文本理解能力都表现不错，在某些指标上仅略逊于 Claude-2 Haiku。

04 应用实例

多模态问答与内容生成

Pixtral 12B 的多模态能力使得其在问答系统、内容生成和用户交互方面有广泛的应用前景。通过结合图像和文本输入，模型可以自动生成复杂的报告、分析文档，甚至可以根据输入的图像生成详细的描述或故事情节。这种能力在电商、医疗、教育等领域将发挥巨大作用。

图像理解与视频分析

借助其强大的视觉处理能力，Pixtral 12B 可以广泛应用于图像识别、视频分析等领域。例如，在安全监控中，该模型可以处理高分辨率视频，并从中提取关键图像信息；在智能文档处理系统中，Pixtral 12B 可以通过 OCR 技术解析扫描文档并生成对应的文本内容。

OCR

在医疗和教育领域，它的OCR和复杂文档解析功能将大大提高处理效率，生成精确的诊断报告或学习材料。即使是面对繁杂的手写草稿或者公式复杂的科学文档，Pixtral 12B 也能快速、准确地完成内容识别和转换。

04 模型下载

传神社区：

https://opencsg.com/models/mistral-community/pixtral-12b-240910

huggingface：

https://huggingface.co/mistral-community/pixtral-12b-240910

欢迎加入传神社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加传神小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

加入传神社区

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247486671&idx=1&sn=b1cbb05573097eeeaba974abfaa2cb9e

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

CodeSouler v1.0.7 版本更新

重磅发布！DeepSeek-V2.5：融合通用与代码能力的全新开源模型

小而强大！零一万物 Yi-Coder 模型震撼发布！

国产“小钢炮”MiniCPM3-4B：小参数，大能量！

国内独家首发 | OpenCSG开源中文版fineweb edu数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉