研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

科技 2024-11-24 12:45 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本篇综述的作者团队包括宾州州立大学的博士研究生王发利，张智维，吴纵宇，张先仁，指导教师王苏杭副教授，以及来自伦斯勒理工学院的马耀副教授，亚马逊汤先锋、何奇，德克萨斯大学休斯顿健康科学中心黄明副教授团队。

摘要：大型语言模型（LLMs）在多种任务中表现出色，但由于庞大的参数和高计算需求，面临时间和计算成本挑战。因此，小型语言模型（SLMs）因低延迟、成本效益及易于定制等优势优点，适合资源有限环境和领域知识获取，正变得越来越受欢迎。我们给出了小语言模型的定义来填补目前定义上的空白。我们对小型语言模型的增强方法、已存在的小模型、应用、与 LLMs 的协作、以及可信赖性方面进行了详细调查。我们还探讨了未来的研究方向，并在 GitHub 上发布了相关模型及文章：https://github.com/FairyFali/SLMs-Survey。

论文链接：https://arxiv.org/abs/2411.03350

文章结构

图 1 文章结构

LLMs 的挑战

神经语言模型（LM）从 BERT 的预训练微调到 T5 的预训练提示，再到 GPT-3 的上下文学习，极大增强了 NLP。模型如 ChatGPT、Llama 等在扩展至大数据集和模型时显示出 “涌现能力”。这些进步推动了 NLP 在多个领域的应用，如编程、推荐系统和医学问答。

尽管大型语言模型（LLMs）在复杂任务中表现出色，但其庞大的参数和计算需求限制了部署本地或者限制在云端调用。这带来了一系列挑战：

LLMs 的高 GPU 内存占用和计算成本通常使得其只能通过云 API 部署，用户需上传数据查询，可能引起数据泄漏及隐私问题，特别是在医疗、金融和电商等敏感领域。
在移动设备上调用云端 LLMs 时面临云延迟问题，而直接部署又面临高参数和缓存需求超出普通设备能力的问题。
LLMs 庞大的参数数量可能导致几秒至几分钟的推理延迟，不适合实时应用。
LLMs 在专业领域如医疗和法律的表现不佳，需要成本高的微调来提升性能。
虽然通用 LLMs 功能强大，但许多应用和任务只需特定功能和知识，部署 LLMs 可能浪费资源且性能不如专门模型。

SLMs 的优势

最近，小型语言模型（SLMs）在处理特定领域问题时显示出与大型语言模型（LLMs）相当的性能，同时在效率、成本、灵活性和定制方面具有优势。由于参数较少，SLMs 在预训练和推理过程中节约了大量计算资源，减少了内存和存储需求，特别适合资源有限的环境和低功耗设备。因此，SLMs 作为 LLMs 的替代品越来越受到关注。如图 2 所示，Hugging Face 社区中 SLMs 的下载频率已超过大型模型，而图 3 显示了 SLMs 版本随时间推移的日益流行。

图 2 Hugging Face 上个月下载量（数据获取在 2024 年 10 月 7 日）

图 3 SLMs 时间线

SLMs 的定义

通常，具有涌现能力的语言模型被归类为大型语言模型（LLMs）。然而，小型语言模型（SLMs）的分类尚无统一标准。一些研究认为 SLMs 的参数少于 10 亿，且在移动设备上通常配备约 6GB 的内存；而另一些研究则认为 SLMs 的参数可达到 100 亿，但这些模型通常缺乏涌现能力。考虑到 SLMs 在资源受限的环境及特定任务中的应用，我们提出了一个广义的定义：SLMs 的参数范围应介于能展现专门任务涌现能力的最小规模和在资源限制条件下可管理的最大规模之间。这一定义旨在整合不同观点，并考虑移动计算及能力阈值因素。

SLMs 的增强方法

在大语言模型时代小语言模型的增强方法会有不同，包括从头开始训练 SLMs 的训练方法、使 SLMs 遵循指令的监督微调 (SFT)、先进的知识提炼和量化技术，以及 LLMs 中经常使用的技术，以增强 SLMs 针对特定应用的性能。我们详细介绍了其中一些代表性方法，包括参数共享的模型架构（从头开始训练子章节 3.1）、从人类反馈中优化偏好（有监督微调子章节 3.2）、知识蒸馏的数据质量（3.3 章节）、蒸馏过程中的分布一致性（3.4 章节）、训练后量化和量化感知训练技术（3.5 章节）、RAG 和 MoE 方法增强 SLMs（3.6 章节）。这一章节的未来方法是探索可提高性能同时降低计算需求的模型架构，比如 Mamba。

SLMs 的应用

由于 SLMs 能够满足增强隐私性和较低的内存需求，许多 NLP 任务已开始采用 SLMs，并通过专门技术提升其在特定任务上的性能（见 4.1 节），如问答、代码执行、推荐系统以及移动设备上的自动化任务。典型应用包括在移动设备上自动执行任务，SLMs 可以作为代理智能调用必需的 API，或者根据智能手机 UI 页面代码自动完成给定的操作指令（见 4.1.5 节）。

此外，部署 SLMs 时通常需考虑内存使用和运行效率，这对预算有限的边缘设备（特别是智能手机）上的资源尤为关键（见 4.2 节）。内存效率主要体现在 SLMs 及其缓存的空间占用上，我们调研了如何压缩 SLMs 本身及其缓存（见 4.2.1 节）。运行效率涉及 SLMs 参数量大及切换开销，如内存缓存区与 GPU 内存之间的切换（见 4.2.2 节），因此我们探讨了减少 MoE 切换时间和降低分布式 SLMs 延迟等策略。

未来研究方向包括使用 LoRA 为不同用户提供个性化服务、识别 SLMs 中的固有知识及确定有效微调所需的最少数据等（更多未来方向详见第 8 章）。

已存在的 SLMs

我们总结了一些代表性的小型语言模型（详见图 3），这些模型包括适用于通用领域和特定领域的小型语言模型（参数少于 70 亿）。本文详细介绍了这些小型语言模型的获取方法、使用的数据集和评估任务，并探讨了通过压缩、微调或从头开始训练等技术获取 SLMs 的策略。通过统计分析一些技术，我们归纳出获取通用 SLMs 的常用技术，包括 GQA、Gated FFN，SiLU 激活函数、RMS 正则化、深且窄的模型架构和 embedding 的优化等（见 5.1 章）。特定领域的 SLMs，如科学、医疗健康和法律领域的模型，通常是通过对大模型生成的有监督领域数据进行指令式微调或在领域数据上继续训练来获取的（见 5.2 章）。未来的研究方向将包括在法律、金融、教育、电信和交通等关键领域开发专业化的小型语言模型。

SLMs 辅助 LLMs

由于 SLMs 在运行效率上表现出色且与 LLMs 的行为规律相似，SLMs 能够作为代理辅助 LLMs 快速获取一些先验知识，进而增强 LLMs 的功能，例如减少推理过程中的延迟、缩短微调时间、改善检索中的噪声过滤问题、提升次优零样本性能、降低版权侵权风险和优化评估难度。

在第 6 章中，我们探讨了以下五个方面：

(i) 使用 SLMs 帮助 LLMs 生成可靠内容：例如，使用 SLMs 判断 LLMs 输入和输出的真实置信度，或根据 LLMs 的中间状态探索幻觉分数。详细的可靠生成方法、增强 LLMs 的推理能力、改进 LLMs RAG 以及缓解 LLMs 输出的版权和隐私问题，请参考原文。

(ii) SLMs 辅助提取 LLMs 提示：一些攻击方法通过 SLMs 逆向生成 Prompts。

(iii) SLMs 辅助 LLMs 微调：SLMs 的微调参数差异可以模拟 LLMs 参数的演变，从而实现 LLMs 的高效微调。

(iv) SLMs 在特定任务上辅助 LLMs 表现：定制化的 SLMs 在某些特定任务上可能优于 LLMs，而在困难样本上可能表现不佳，因此 SLMs 和 LLMs 的合作可以在特定任务上实现更优表现。

(v) 使用 SLMs 评估 LLMs：SLMs 在经过微调后可以作为评估器，评估 LLMs 生成的更加格式自由的内容。

未来的方向包括使用 SLMs 作为代理探索 LLMs 更多的行为模式，如优化 Prompts、判断缺失知识和评估数据质量等，更多信息请参见原文第 8 章未来工作。

SLMs 的可信赖性

图 4 Trustworthiness 分类

语言模型已成为我们日常生活中不可或缺的一部分，我们对它们的依赖日益增加。然而，它们在隐私、公平等信任维度上存在局限，带来了一定风险。因此，许多研究致力于评估语言模型的可信赖性。尽管目前的研究主要集中在大型语言模型（LLMs）上，我们在第 7 章关注 7B 参数及以下的模型和五个关键的信任场景：鲁棒性、隐私性、可靠性、安全性和公平性，详见图 4。在鲁棒性方面，我们讨论了对抗性鲁棒性和分布外鲁棒性两种情况；在安全性方面，我们重点分析了误导信息和毒性问题；在可靠性方面，我们主要关注幻觉和谄媚现象。然而，大多数现有研究都集中在具有至少 7B 参数的模型上，这留下了对小型语言模型（SLMs）可信度全面分析的空白。因此，系统地评估 SLMs 的可信度并了解其在各种应用中的表现，是未来研究的重要方向。

总结

随着对小型语言模型需求的增长，当下研究文献涵盖了 SLMs 的多个方面，例如针对特定应用优化的训练技术如量化感知训练和选择性架构组件。尽管 SLMs 性能受到认可，但其潜在的可信度问题，如幻觉产生和隐私泄露风险，仍需注意。当前缺乏全面调查彻底探索 LLMs 时代 SLMs 的这些工作。本文旨在提供详尽调查，分析 LLMs 时代 SLMs 的各个方面及未来发展。详见我们的综述原文。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650944101&idx=5&sn=3a152e75e79b5564a7e9431c343cfbfd

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉