小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%

科技 2024-11-12 18:03 北京

小米大模型团队投稿
量子位 | 公众号 QbitAI

小米大模型第二代来了！

相比第一代，训练数据规模更大、品质更高，训练策略与微调机制上也进行了深入打磨。

不仅窗口长度增长到了原来的50倍，在10大能力维度上表现相比于第一代平均提升超过45%。

而且家族成员丰富，有从0.3B到30B多个参数规模，分别适配云边端各侧设备。

此外，第二代大语言模型在端侧部署上还支持3种推理加速方案，包括大小模型投机、BiTA、Medusa，相比于业界标准高通方案，量化损失降低78%。

大模型架构基础研究

针对预训练、后训练、量化、推理加速等大模型具体研发方向，小米团队做了大量研究，并将部分成果以论文的形式发布出来。

今年以来，小米大模型团队发表了11篇论文（5篇ACL、3篇EMNLP、1篇NeurIPS、1篇ECAI、1篇COLING），申请了30+项发明专利，其中部分代表性的工作如下：

SUBLLM

项目主页：https://github.com/XiaoMi/subllm

SUBLLM基于Transformer结构，创新性地提出了一种新的模型结构。

其中设计了Subsampling、Upsampling和Bypass等新模块，使得模型能够区分重要token和不重要token。

针对重要tokens花更多的算力学习，保持few shot能力不变的同时，训练和推理速度分别提升34%和52%。

该研究对标Google Deepmind的mixture of depths工作，兼容现有attention based大模型生态。

TransAct

论文地址：https://arxiv.org/abs/2407.05690

TransAct是一种大模型结构化剪枝方法。

为了在大模型上同时实现高度压缩和较小损失，小米大模型团队设计了TransAct。

本方法以减小Transformer模块内隐藏表征维度为目标，以各神经元的激活值大小为依据，剪除激活值较小的神经元，形成类低秩表示的模块结构，同时保留 LayerNorm 等对扰动敏感的模块间隐藏表征维度。

对比之前业界最佳的剪枝方法，TransAct方法剪枝模型的KV Cache下降了50%，推理速度提升了20%（小米14手机测试）。

INTRADoc

论文地址：https://arxiv.org/abs/2402.13991

INTRADoc是一种新的注意力机制。

它通过屏蔽无关文档，让每个token的概率仅取决于同一文档中的上文信息，进而消除了来自之前无关文档的潜在干扰信息。

结果，INTRADoc显著地提高了模型上下文学习、知识记忆、上下文利用能力。

Mixture of Diverse Size Experts

论文地址：https://arxiv.org/abs/2409.12210

这是一种新的MoE结构，简称为MoDSE。

它在每一层中设计大小不同的专家结构，并同时引入了一种专家对分配策略，以在多个GPU之间均匀分配工作负载。

在多个基准测试中，MoDSE通过自适应地将参数预算分配给专家，在保持总参数量和专家个数相同的情况下，表现优于传统MoE结构。

性能平均提升45%

小米第二代模型MiLM2系列融合多项前沿技术模型效果全面超越了第一代。

小米大模型团队采用自主构建的通用能力评测集Mi-LLMBM2.0，对最新一代的MiLM2模型进行了全方位评估。

该评测集涵盖了广泛的应用场景，包括生成、脑暴、对话、问答、改写、摘要、分类、提取、代码处理以及安全回复等10个大类，共计170个细分测试项。

以MiLM2-1.3B模型和MiLM2-6B模型为例，对比去年发布的一代模型，在十大能力上的效果均有大幅提升，平均提升幅度超过45%。

在生成、闲聊、翻译等关键能力上，MiLM2-6B模型的评测成绩十分优异，对比业内同参数规模模型也有较优的效果。

多个模型尺寸，覆盖云边端

大模型的更新，除了性能的提升，也是打磨模型矩阵的动态过程。

在坚持轻量化部署的大原则下，小米团队将大模型的参数规模灵活扩展至0.3B、0.7B、1.3B、2.4B、4B、6B、13B、30B等多个量级，以适应不同场景下的需求。

0.3B~6B：终端（on-device）场景，应用时通常是一项非常具体的、低成本的任务，提供不同参数规模的模型以适配不同芯片及存储空间的终端设备，微调后可以达到百亿参数内开源模型效果。
6B、13B：在任务明确、且需要比6B以下参数模型提供更多的零样本zero-shot/上下文学习时，6B和13B是一个可能有LLM涌现能力的起点，支持多任务微调，微调后可以达到几百亿开源模型的效果。
30B：云端场景，具备相当坚实的zero-shot/上下文学习或一些泛化能力，模型推理能力较好，能够完成复杂的多任务，基本达到通用大模型水平。

小米自研大模型矩阵不仅包含多样的参数量级，同时也纳入了各种不同的模型结构。

在二代模型系列中，大模型团队特别加入了两个MoE（Mixture of Experts，即混合专家模型）结构的模型——MiLM2-0.7B×8和MiLM2-2B×8。

两个模型的差异主要体现在训练总参数量、词表大小等方面。

MoE模型的工作原理是将多个承担特定功能的“专家”模型进行并行处理，进而综合各模型的输出来提高整体预测的准确度和效率。

以MiLM2-2B×8为例，根据评测结果，该模型在整体性能上与MiLM2-6B不相上下、表现出色，而解码速度实现了50%的提升，在保证模型性能不打折扣的同时，提升了其运行效率。

4B+30B，云端协同运行

特别地，对于端侧，小米第二代大模型的部署技术也有了新的突破，新的4B模型将在端侧发挥更重要的作用。

小米大模型团队创新性地提出了“TransAct大模型结构化剪枝方法”，仅用8%的训练计算量即从6B模型剪枝了4B模型，训练效率大大提升；

同时小米大模型团队自研了“基于权重转移的端侧量化方法”和“基于Outliers分离的端侧量化方法”，大幅降低了端侧量化的精度损失，对比业界标准高通方案，量化损失下降78%。

MiLM2-4B模型总共40层，实际总参数量为3.5B，目前已经实现在端侧部署落地。

同时，在云端运行的MiLM2-30B模型是小米二代大模型系列中参数量级最大的模型。

在云端环境中，大模型面临着多样化和高难度的挑战，需要更高效地遵从并执行用户的复杂指令，深入分析多维度任务，并在长上下文中精准定位信息。

针对这些重点目标，大模型团队选择了一系列开源的评测集，对MiLM2-30B模型的专项能力进行评估。

结果表明，MiLM2-30B模型在指令遵循、常识推理和阅读理解能力方面均有超越主流竞品的出色表现，具体的评测集和评测结果如下：

△指令遵循及常规能力测试结果

△长文本能力测试结果

— 完 —

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247757815&idx=1&sn=f00060ea66dec6147cbb2e9d15f2f128

量子位

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

小米上新二代大模型！窗口长度翻至50倍，平均性能提升超45%

小米大模型团队 投稿量子位 | 公众号 QbitAI

大模型架构基础研究

SUBLLM

TransAct

INTRADoc

Mixture of Diverse Size Experts

性能平均提升45%

多个模型尺寸，覆盖云边端

4B+30B，云端协同运行

△指令遵循及常规能力测试结果

△长文本能力测试结果

小米大模型团队投稿
量子位 | 公众号 QbitAI