与传统的大型语言模型(LLM)相比,SLM 模型因其较少的参数和更简洁的设计,具备高效性和低成本优势,尤其适合在客户服务、医疗保健、物联网等领域中应用。根据市场研究公司Valuates Reports的数据,SLM 市场预计将在未来五年实现 18% 的年均增长。
近日,阿布扎比技术创新研究所(TII)推出其新一代开源小型语言模型(SLM)——Falcon3系列,包括四个不同规模的模型:1B、3B、7B和10B。该项目旨在通过提升性能和训练效率,推动开放和可访问的大型基础模型的发展,为开发人员、研究人员和企业提供一种高效且成本低廉的AI解决方案。
Falcon3 系列的训练数据规模达到了14万亿tokens,是其前身 Falcon2 的两倍多。
Falcon3 支持英语、法语、西班牙语和葡萄牙语四种语言,并配备了 32K 的上下文窗口,能够处理长输入文本,满足各类行业的需求。
Falcon 3 系列包括五个基础模型,专注于扩展科学、数学和代码能力,并在训练成本上进行了优化。
Hugging Face 模型链接:https://huggingface.co/blog/falcon3
Falcon3 的表现已在 Hugging Face 排行榜上脱颖而出,超越了与之尺寸相同的开源模型,如 Meta 的 Llama 和 Qwen-2.5。特别是7B 和 10B 版本在推理速度、语言理解、指令执行以及代码和数学任务等方面,展现了领先的技术优势,甚至在多个基准测试中超越了谷歌、Meta和阿里巴巴等竞争对手。
Ivy-VL 是由 AI Safeguard 联合 CMU 与斯坦福开发的⼀款轻量级多模态模型,拥有仅 3B 的参数,与7B以几十B的多模态模型相比,具有更小的硬件占用。
Ivy-VL 可以接受图像和文本输入,并生成文本输出。
Hugging Face 模型链接:https://huggingface.co/AI-Safeguard/Ivy-VL-llava
通过结合先进的视觉编码器(google/siglip-so400m-patch14-384)与强大的语言模型(Qwen2.5-3B-Instruct),Ivy-VL 在视觉问答、图像描述、复杂推理等任务中表现优异,完美满足端侧应用的多模态需求。
Ivy-VL 在多个基准测试中表现优于其他知名的小型模型。
MMLU测试:Phi-4 在 MMLU 上的准确率为 84.8%,超过了 GPT-4o-mini 和Llama-3.3。
GPQA测试:Phi-4 在研究生水平 STEM 问答 GPQA 上的准确率为 56.1%,高于GPT-4o 和 Qwen-2.5。
MATH测试:Phi-4 在数学测试集 MATH 上的准确率为 80.4%,接近 GPT-4o。
编程能力:Phi-4 在 HumanEval 上以 82.6% 超过了其他开源模型,以及 GPT-4o-mini。
在美国数学竞赛 AMC 的测试中,Phi-4 达到了惊人的 91.8 分,再次超过了 Gemini Pro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5 等知名开闭源模型,甚至整体性能可以与 4050 亿参数的 Llama-3.1 相媲美。
尽管规模较小,但 Phi-4 的性能却实现了显著提升,这主要归功于微软在训练数据方面的创新,包括使用高质量的合成数据集和人类生成内容数据集,以及一些未公开的后期训练改进。
论文地址:https://arxiv.org/pdf/2412.08905
参考:
https://huggingface.co/blog/falcon3
https://falconllm.tii.ae/falcon3/index.html