模型简介
技术特点和创新
性能评估
在性能评估方面,Phi-4模型通过一系列基准测试展示了其卓越的能力。使用的基准测试包括OpenAI的simple-evals,这是一个包含多个指标的框架,用于评估语言模型在各种任务上的表现。Phi-4在12个基准中的9个上优于最接近的同类当代模型Qwen-2.5-14B-Instruct,显示了它的优越性能。
基准测试细节
OpenAI Simple-Evals:该测试框架包括多种评估任务,如MMLU(Massive Multitask Language Understanding)、GPQA(Graduate Physics Questions Assessment)、MATH(数学竞赛)、HumanEval(编程问题求解)、MGSM和SimpleQA(简单问答)。在这些测试中,Phi-4尤其在STEM相关的问答任务中表现出色,例如在GPQA和MATH测试中,它的表现甚至超过了教师模型GPT-4o。
模型下载
OpenCSG社区:https://opencsg.com/models/microsoft/phi-4
欢迎加入OpenCSG社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加小助手
“ 关于OpenCSG