大型语言模型 (LLM) 的最新进展已在从解决数学问题到回答医学问题的广泛应用中展现出强大的能力。然而,由于这些模型规模庞大,并且需要大量的计算资源来训练和部署它们,因此它们变得越来越不实用。像 OpenAI 或 Google 开发的 LLM 这样的模型通常包含数千亿个参数,需要大量数据集和高昂的训练成本。
与传统的大型语言模型(LLM)相比,小型语言模型(SLM) 模型因其较少的参数和更简洁的设计,具备高效性和低成本优势,尤其适合在客户服务、医疗保健、物联网等领域中应用。根据市场研究公司Valuates Reports的数据,SLM 市场预计将在未来五年实现 18% 的年均增长。
12 月 18 日,阿布扎比技术创新研究所(TII)推出其新一代开源小型语言模型(SLM)——Falcon3系列,包括四个不同规模的模型:1B、3B、7B和10B。该项目旨在通过提升性能和训练效率,推动开放和可访问的大型基础模型的发展,为开发人员、研究人员和企业提供一种高效且成本低廉的AI解决方案。
Falcon3 系列的训练数据规模达到了14万亿tokens,是其前身 Falcon2 的两倍多。
Falcon3 支持英语、法语、西班牙语和葡萄牙语四种语言,并配备了 32K 的上下文窗口,能够处理长输入文本,满足各类行业的需求。
Falcon 3 系列包括五个基础模型,专注于扩展科学、数学和代码能力,并在训练成本上进行了优化。
Hugging Face地址:https://huggingface.co/blog/falcon3
Falcon3 的表现已在Hugging Face排行榜上脱颖而出,超越了与之尺寸相同的开源模型,如 Meta 的 Llama 和 Qwen-2.5。特别是 7B 和 10B 版本在推理速度、语言理解、指令执行以及代码和数学任务等方面,展现了领先的技术优势,甚至在多个基准测试中超越了谷歌、Meta和阿里巴巴等竞争对手。
12 月 17 日,Ivy-VL 是由 AI Safeguard 联合 CMU 与斯坦福开发的⼀款轻量级多模态模型,拥有仅 3B 的参数,与7B以几十B的多模态模型相比,具有更小的硬件占用。
Ivy-VL 可以接受图像和文本输入,并生成文本输出。
由于其轻量化设计,该模型可以部署在如AI眼镜、智能手机等边缘设备上,具有低内存使用和高速度的特点,同时在多模态任务中保持强大的性能。
Hugging Face 模型链接:https://huggingface.co/AI-Safeguard/Ivy-VL-llava
通过结合先进的视觉编码器(google/siglip-so400m-patch14-384)与强大的语言模型(Qwen2.5-3B-Instruct),Ivy-VL 在视觉问答、图像描述、复杂推理等任务中表现优异,完美满足端侧应用的多模态需求。
Ivy-VL 在多个基准测试中表现优于其他知名的小型模型。
在专业多模态模型评测榜单 OpenCompass 上面,做到了 4B 以下开源模型第⼀的性能。超越了顶尖的端侧 SOTA 模型,包括 Qwen2-VL-2B,InternVL2-2B,InternVL2.5-2B,SmolVLM-Instruct, Aquila-VL-2B 以及 PaliGemma 3B 等模型。
MMLU测试:Phi-4 在 MMLU 上的准确率为 84.8%,超过了 GPT-4o-mini 和Llama-3.3。
GPQA测试:Phi-4 在研究生水平 STEM 问答 GPQA 上的准确率为 56.1%,高于GPT-4o 和 Qwen-2.5。
MATH测试:Phi-4 在数学测试集 MATH 上的准确率为 80.4%,接近 GPT-4o。
编程能力:Phi-4 在 HumanEval 上以 82.6% 超过了其他开源模型,以及 GPT-4o-mini。
在美国数学竞赛 AMC 的测试中,Phi-4 达到了惊人的 91.8 分,再次超过了 Gemini Pro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5 等知名开闭源模型,甚至整体性能可以与 4050 亿参数的 Llama-3.1 相媲美。
尽管规模较小,但 Phi-4 的性能却实现了显著提升,这主要归功于微软在训练数据方面的创新,包括使用高质量的合成数据集和人类生成内容数据集,以及一些未公开的后期训练改进。
论文地址:https://arxiv.org/pdf/2412.08905
11 月 13 日,新兴 AI 公司 TensorOpera AI 发布了 Fox-1,这是一系列小型语言模型 (SLM),旨在提供类似 LLM 的功能,同时显著降低资源需求。
TensorOpera
TensorOpera 是一家位于加州硅谷的创新人工智能公司。他们之前开发了 TensorOpera® AI Platform 生成型 AI 生态系统和 TensorOpera® FedML 联邦学习和分析平台。公司名称 TensorOpera, 是技术和艺术的结合,象征着 GenAI 最终实现多模态和多模型复合 AI 系统的发展趋。
论文链接:https://arxiv.org/abs/2411.05281
为了通过较小的参数量达到与 LLM 相同的效果,Fox-1 模型仅采用解码器架构,并引入了各种改进和重新设计以获得更好的性能。
在基准测试方面,和其他 SLM 模型(Gemma-2B, Qwen1.5-1.8B, StableLM-2-1.6B 和 OpenELM1.1B)相比,Fox-1 在 ARC Challenge (25-shot), HellaSwag (10-shot), TruthfulQA(0-shot),MMLU (5-shot),Winogrande (5-shot),GSM8k (5-shot)六项任务的 benchmark 的平均分数最高,且在 GSM8k 上优势明显:实现了 36.39% 的准确率,优于所有对比模型,包括大小为其两倍的 Gemma-2B。
2. 在推理效率方面,Fox-1 是在单个 NVIDIA H100 GPU 上使用 vLLM 测量的,每秒可实现超过 200 个 token,超过了 Gemma-2B,与 Qwen1.5-1.8B 的吞吐量相当,但占用的 GPU 内存更少。
早在7月,Meta 就发布了 2 个参数量小于 10亿 的语言模型 MobileLLM-125M 及 MobileLLM-350M。
11 月 2 日,Meta 宣布正式开源可在智能手机上运行的小语言模型 MobileLLM 家族,并同时为系列模型新增 600M、1B 和 1.5B 三种不同参数版本。
MobileLLM 性能提升
当将 MobileLLM-1.5B 与业界其他参数量更大的模型进行比较时,其表现同样令人瞩目。根据 Meta 提供的数据,MobileLLM-1.5B 领先了 GPT-neo-2.7B、OPT-2.7B、BLOOM-3B、Qwen 1.5-1.8B 与 Pythia-2.8B 等较大参数量的其他模型。
MobileLLM 训练快速
11 月 2 日,Hugging Face 发布了 SmolLM2 —— 一系列专门针对设备上的应用进行优化的全新小型模型。SmolLM2 在其前身 SmolLM1 的成功基础上,提供了增强的功能,同时保持了轻量级,具有 1.7B、360M、135M 三个参数级。
SmolLM2 旨在通过紧凑和多功能性来克服大型 LLM 的局限性。
该模型在指令跟随、知识推理和数学能力上表现出显著进步。通过监督微调和超反馈优化,该模型支持文本重写、摘要生成和函数调用等任务。
基准测试结果凸显了 SmolLM2 的改进。SmolLM2 Instruct 在 IFEval 上的得分为 56.7,在 MT-Bench 上的得分为 6.13,在 MMLU-Pro 上的得分为 19.3,在 GMS8k 上的得分为 48.2,表现出了极具竞争力的性能,基本可以匹敌甚至超越 Meta Llama 3.2 1B 模型。
图:SmolLM2 基础预训练模型
图:SmolLM2 指令微调模型
10 月 31 日,AMD 宣布推出首个完全开放的 10 亿参数语言模型系列 AMD OLMo,为开发者和研究人员提供强大的 AI 研究工具。
AMD OLMo 的训练分为三个阶段:
预训练:使用 Dolma v1.7 数据集的 1.3 万亿 token 子集进行预训练,学习语言结构和通用知识。
监督微调 (SFT):分为两个阶段,首先使用 Tulu V2 数据集微调,然后使用 OpenHermes-2.5、WebInstructSub 和 Code-Feedback 数据集进一步微调,提升指令遵循能力,特别是编码、科学和数学问题解决能力。
对齐:使用 UltraFeedback 数据集进行直接偏好优化 (DPO),使模型输出与人类价值观和偏好更一致。
AMD OLMo 模型在与同级别开源模型如 TinyLlama-1.1B、MobiLlama-1B 和 OpenELM-1_1B 标准版相比时,展现出了令人瞩目的性能,特别是在普通推理能力和多任务理解方面。
与其他同类开源模型相比,AMD OLMo 在推理能力和聊天能力方面均表现出显著优势。
AMD OLMo 的性能表现:
在通用推理任务上的平均准确率与最新的 OLMo-0724-hf 模型相当,但计算预算减少了一半,并且优于其他基线模型。
在 ARC-Easy、ARC-Challenge 和 SciQ 等基准测试中,准确率均有提升。
在指令微调后,AMD OLMo 1B SFT 在 GSM8k 上的性能显著优于其他基线模型。
在聊天基准测试 AlpacaEval 2 和 MT-Bench 上,AMD OLMo 也表现出色。
在负责任的 AI 评估基准测试中,AMD OLMo 1B SFT DPO 与其他聊天基线模型表现相当。
参考:
https://blog.csdn.net/m0_59235699/article/details/144384720
https://www.nxrte.com/jishu/53846.html
https://www.amd.com/en/developer/resources/technical-articles/introducing-the-first-amd-1b-language-model.html
https://blog.csdn.net/edwinjhlee/article/details/143595613