文|庞德公
编辑|郭嘉
在继Meta MobileLLM之后,本周迎来了小模型的挤堆发布。在本地设备上运行的小型语言模型脱胎于蒸馏或量化等技术来压缩大型模型,或者在大型数据集上从头开始训练。
Microsoft的Phi系列、阿里巴巴的Qwen2和Meta的 MobileLLM表明,如果经过深思熟虑的设计和训练,小型模型可以取得令人印象深刻的结果。但是,有关这些模型的数据管理和训练的大部分详细信息尚未公开。
“我们很幸运能与NVIDIA团队合作,利用他们的顶级硬件和软件。得益于NVIDIA AI Enterprise的部署,我们共同开发了一种具有前所未有的准确性、灵活性、高效率和企业级支持和安全性的模型。
该模型适用于全球多语言应用,它具有较大的上下文窗口,并且在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面尤其强大。
Mistral NeMo 使用基于Tiktoken的新分词器Tekken,该分词器经过了 100多种语言的训练,比以前Mistral模型中使用的SentencePiece词器更有效地压缩自然语言文本和源代码。在压缩源代码(中文、意大利语、法语、德语、西班牙语和俄语)方面的效率提高了~30%。它在压缩韩语和阿拉伯语方面的效率也分别提高了2倍和3倍。与Llama 3分词器相比,Tekken 被证明更擅长压缩大约 85% 的所有语言的文本。
Mistral NeMo NIM设计用于安装在单个NVIDIA L40S、NVIDIA GeForce RTX 4090或NVIDIA RTX 4500 GPU的内存上,可提供高效率、低计算成本以及增强安全性和隐私性。
GPT-4o mini
OpenAI表示GPT-4o mini在涉及文本和视觉的推理任务上优于行业领先的小模型。随着小型 AI模型的改进,与GPT-4 Omni或Claude 3.5 Sonnet 等大型模型相比,它们的速度和成本效益越来越受到开发人员的欢迎。对于开发人员可能会反复调用AI模型来执行的大量简单任务,它们是一个有用的选项。
GPT-4o mini将取代GPT-3.5 Turbo,成为OpenAI提供的最小型号。该公司声称,根据Artificial Analysis的数据,其最新的AI模型在MMLU上得分为82%,MMLU是衡量推理的基准,而Gemini 1.5 Flash为79%,Claude 3 Haiku为75%。在MGSM上,GPT-4o mini得分为87%,而Flash为 78%,Haiku为 72%。
SmolLM
HuggingFace发布了SmolLM,这是一系列最先进的小型语言模型,有三种尺寸可供选择:135M、360M 和 1.7B 参数。这些模型建立在精心策划的高质量训练语料库之上,我们将其作为 SmolLM-Corpus 发布。Smollm 语料库包括:
Cosmopedia v2:由 Mixtral 生成的合成教科书和故事集
Python-Edu: 来自 The Stack 的教育性Python示例
FineWeb-Edu:来自FineWeb(220B Token)的样本
SmolLM 模型在各种基准测试中都优于其大小类别中的其他模型:
小模型的热度体现了人工智能社区对效率和可访问性的关注。较小模型在训练和运行时需要的训练资源更少,有助于减少人工智能硬件资源的依赖。随着企业越来越重视可持续实践,这一点可成为SLMs的一大卖点。
SLMs的普及也带来了一系列挑战,包括偏见、责任和道德使用等问题。尽管小型模型在效率和可访问性上具有优势,但它们在某些任务上可能无法与大型模型相媲美。未来,人工智能领域可能会呈现出多样化的模型尺寸和专业化,而不是单一的解决方案。关键在于找到模型大小、性能和特定应用需求之间的最佳平衡点。