MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

2025-01-17 12:22 日本

MiniMax强势来袭

继公布全模态模型家族后，时隔5个月，MiniMax再亮相两大模型，并且模型权重完全开源。这两款新模型不仅性能与GPT-4o和Claude-3.5-Sonnet平起平坐，在上下文窗口方面的表现尤其突出，处理能力甚至达到其他顶尖模型的 20 - 32倍。

更重要的是，这两款全新模型扩展了新型Lightning Attention架构，突破了传统Transformer架构，同时也是线性注意力机制的首次大规模实现。

什么是线性注意力机制？

线性注意力机制是对传统注意力机制的优化升级，将传统注意力机制的二次计算复杂度转变为线性复杂度。这大幅降低了计算复杂度，提升了模型训练速度。早在2019年就有人提出了这一理论，但从来没有人在大规模的模型上实现过。

如今，MiniMax率先找了解题答案，无疑为处理长文本、大规模数据等复杂任务提供了有力支持，实力证明了线性注意力机制在大规模商用模型中的可行性。

MiniMax-01 系列模型介绍

此次 MiniMax 发布的 MiniMax-01 系列包含两款模型：基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。

MiniMax-Text-01

MiniMax-Text-01 是一个具有 4560 亿参数量的大规模语言模型，每个 token 会激活 459 亿参数。其主要技术特点包括：

采用 80 层网络架构
64 个注意力头，每个头维度为 128
32 个专家模型组成的 MoE 系统
支持高达 400 万 token 的推理上下文长度
词表大小达 200,064

在学术基准测试中，MiniMax-Text-01 展现出了令人瞩目的性能。例如在 MMLU 测试中达到 88.5 分，与顶级模型如 Claude 3.5 Sonnet（88.3 分）和 DeepSeek V3（88.5 分）处于同一水平。在 C-SimpleQA 任务中更是取得了 67.4 分的最佳成绩。

MiniMax-VL-01

MiniMax-VL-01 是一款将图像编码器和图像适配器集成到 MiniMax-Text-01 模型基础上开发的多模态模型，采用多模态大语言模型常用的 "ViT-MLP-LLM" 框架，具有动态分辨率功能。它不仅继承了文本处理的高效性，还具备强大的视觉理解能力，在多种视觉语言任务基准测试中展现出与顶尖模型相媲美的性能。

技术解读

Lightning Attention 和线性注意力机制

传统的 Transformer 架构中，注意力机制的计算复杂度是二次的，即随着输入序列长度的增加，计算复杂度成平方级增长。这极大限制了模型处理长序列的能力。

MiniMax-01 采用了 Lightning Attention，这是一种改进的线性注意力机制。通过将注意力计算分解为块内计算和块间计算，Lightning Attention 将二次计算复杂度转变为线性复杂度。这种分块策略不仅降低了计算负担，还提高了计算效率，使得模型能够处理更长的序列。

混合架构与专家系统 (MoE)

MiniMax-01 的混合架构结合了 Lightning Attention、Softmax Attention 和 Mixture-of-Experts (MoE)。MoE 系统通过将多个前馈网络专家组合在一起，每个 token 被路由到一个或多个专家，从而增强了模型的扩展性和计算效率。

性能评估

学术基准测试

MiniMax-Text-01 在多个核心学术基准测试中表现出色，展示了其作为一个顶级大模型的实力。以下是一些关键的测试和结果

从以上基准测试结果可以看出，MiniMax-Text-01 在多个任务上与顶级模型如 DeepSeek V3 和 Claude 3.5 Sonnet 旗鼓相当，甚至在某些任务上表现更为优异。

长上下文处理能力

MiniMax-Text-01 在长上下文处理能力方面表现尤为突出。以下是一些相关测试结果：

这些测试结果表明，MiniMax-Text-01 在处理长文档、长篇对话等场景时，能够更好地保持对信息的理解和处理能力，提供更准确、连贯的输出。

模型下载

OpenCSG社区：

https://opencsg.com/models/AIWizards/MiniMax-Text-01

https://opencsg.com/models/AIWizards/MiniMax-VL-01

欢迎加入OpenCSG社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

OpenCSG社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

CodeSouler v1.13.0 版本更新

回首2024 | OpenCSG社区年度报告请查收

全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

CSGHub开源版本v1.3.0更新

直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

开年巨献｜OpenCSG携UltraFeedback中文数据集强势来袭

Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

NVIDIA Cosmos平台：开启物理AI时代的技术革命

OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

直播预告｜OpenCSG AutoHub智能探索：一键开启 AI 浏览器之旅

ModernBERT：下一代 Encoder-Only 模型的全面进化

OpenCSG月度更新2024.12

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

从30年前的一根网线说起中国这张网改变了什么？

开源用户故事｜CSGHub助力国产AI基础设施建设

视频创作迎来“智变”时刻，图森未来发布“Ruyi”大模型！

论文中心｜第34期人工智能领域论文推荐

OpenCSG 2.0：让我们全面拥抱Agentic架构

C4AI Command R7B：多语言高性能AI模型，为复杂任务而生

安装指南｜OpenCSG Starship上架GitHub Marketplace

CSGHub开源版本v1.2.0更新

DeepSeek V2.5正式发布：支持联网搜索，表现全面提升

论文中心｜第33期人工智能领域论文推荐

Meetup回顾 | AI赋能下的开发流程蜕变

Qwen2-VL-72B重磅开源：跨越视觉与语言的新时代 AI 里程碑

Meta重磅开源Llama 3.3-70B：性能大幅提升，成本大幅降低

倒计时2天！ OpenCSG&JetBrains 上海站 Meetup：AI赋能下的开发流程蜕变圆桌议题公布

Hunyuan-Video：腾讯开源高质量中文通用视频生成模型

论文中心｜第32期人工智能领域论文推荐

OpenCSG&JetBrains 上海站 Meetup | AI赋能下的开发流程蜕变

OpenCSG月度更新2024.11

Qwen开源QwQ-32B-Preview：从自省到突破，解锁AI推理的无限可能

阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

最快的视频生成模型来了！LTX-Video 重磅发布，开源+RTX 4090 即可跑

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉