Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

2025-01-09 16:47 中国香港

模型简介

微软最近开源了其14B参数模型Phi-4，这是Phi系列的最新作，旨在通过创新的数据处理和训练策略来优化模型性能。Phi-4与其前代Phi-3在架构上变化不大，但在数据生成和后期训练技术上做了显著改进，尤其是在STEM领域的问答任务上超越了其教师模型GPT-4。

技术特点和创新

Phi-4的开发围绕提高数据效率和处理能力展开，主要通过以下几个方面实现：

合成数据生成：Phi-4大量使用由复杂算法生成的合成数据，这些数据更适合模型学习深层次的语言结构和逻辑推理。通过模拟多种情景和问答对话，合成数据帮助Phi-4在处理复杂问题时更加精准。

后训练技术的应用：利用直接偏好优化（DPO）和拒绝采样技术，Phi-4能够优化其学习过程，减少不需要的偏差，并增强其输出的人类可读性和适用性。

智能数据过滤和去污染：Phi-4在训练前对数据进行严格的筛选，确保其训练集不含有可能导致过拟合的问题数据。这种智能过滤帮助模型更好地泛化到未见过的数据和问题上。

推理和多语言支持：Phi-4不仅在英语任务上表现出色，还通过增加对多语言的支持，扩展了其应用范围，使得模型可以更好地服务于全球用户。

性能评估

在性能评估方面，Phi-4模型通过一系列基准测试展示了其卓越的能力。使用的基准测试包括OpenAI的simple-evals，这是一个包含多个指标的框架，用于评估语言模型在各种任务上的表现。Phi-4在12个基准中的9个上优于最接近的同类当代模型Qwen-2.5-14B-Instruct，显示了它的优越性能。

基准测试细节

OpenAI Simple-Evals：该测试框架包括多种评估任务，如MMLU（Massive Multitask Language Understanding）、GPQA（Graduate Physics Questions Assessment）、MATH（数学竞赛）、HumanEval（编程问题求解）、MGSM和SimpleQA（简单问答）。在这些测试中，Phi-4尤其在STEM相关的问答任务中表现出色，例如在GPQA和MATH测试中，它的表现甚至超过了教师模型GPT-4o。

内部框架评估：除了公开的测试框架，Phi-4还在内部开发的评估系统中进行了测试，包括MMLU-pro、HumanEval+、ArenaHard和IFEval。这些测试更具挑战性，旨在更精确地模拟实际应用中的复杂问题。尽管在某些任务如SimpleQA和DROP中，Phi-4的得分未能超过Qwen-2.5-14B-Instruct，但分析表明Phi-4在处理真实世界问题上的表现更加接近人类的思维方式。

PhiBench：为了进一步测试Phi-4的能力，微软开发了专门的内部评估集PhiBench。这些测试旨在评估模型在长推理链、复杂数据解析和跨领域知识应用等方面的能力。

模型下载

OpenCSG社区：https://opencsg.com/models/microsoft/phi-4

欢迎加入OpenCSG社区

•贡献代码，与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟：https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群，分享经验

扫描上方二维码添加小助手

“ 关于OpenCSG

开放传神（OpenCSG）成立于2023年，是一家致力于大模型生态社区建设，汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

OpenCSG社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

CodeSouler v1.13.0 版本更新

回首2024 | OpenCSG社区年度报告请查收

全新推理模型 DeepSeek-R1 问世，全面对标 OpenAI o1

直播预告｜OpenCSG&人大YuLan｜LLM数据新范式：深度揭秘高质量开源中文数据集

MiniMax-01重磅发布：突破Transformer架构，4M超长上下文

书生·浦语大模型升级，突破思维密度，4T数据训出高性能模型

CSGHub开源版本v1.3.0更新

直播预告｜LLM数据新范式：深度揭秘OpenCSG高质量开源中文数据集

开年巨献｜OpenCSG携UltraFeedback中文数据集强势来袭

Phi-4: 微软开源的14亿参数模型，重定义AI性能新标准

NVIDIA Cosmos平台：开启物理AI时代的技术革命

OpenCSG助力国产大模型｜YuLan-Mini：数据高效的AI模型突破

直播预告｜OpenCSG AutoHub智能探索：一键开启 AI 浏览器之旅

ModernBERT：下一代 Encoder-Only 模型的全面进化

OpenCSG月度更新2024.12

年终巨献 | OpenCSG开源SmolTalk Chinese数据集

从30年前的一根网线说起中国这张网改变了什么？

开源用户故事｜CSGHub助力国产AI基础设施建设

视频创作迎来“智变”时刻，图森未来发布“Ruyi”大模型！

论文中心｜第34期人工智能领域论文推荐

OpenCSG 2.0：让我们全面拥抱Agentic架构

C4AI Command R7B：多语言高性能AI模型，为复杂任务而生

安装指南｜OpenCSG Starship上架GitHub Marketplace

CSGHub开源版本v1.2.0更新

DeepSeek V2.5正式发布：支持联网搜索，表现全面提升

论文中心｜第33期人工智能领域论文推荐

Meetup回顾 | AI赋能下的开发流程蜕变

Qwen2-VL-72B重磅开源：跨越视觉与语言的新时代 AI 里程碑

Meta重磅开源Llama 3.3-70B：性能大幅提升，成本大幅降低

倒计时2天！ OpenCSG&JetBrains 上海站 Meetup：AI赋能下的开发流程蜕变圆桌议题公布

Hunyuan-Video：腾讯开源高质量中文通用视频生成模型

论文中心｜第32期人工智能领域论文推荐

OpenCSG&JetBrains 上海站 Meetup | AI赋能下的开发流程蜕变

OpenCSG月度更新2024.11

Qwen开源QwQ-32B-Preview：从自省到突破，解锁AI推理的无限可能

阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

最快的视频生成模型来了！LTX-Video 重磅发布，开源+RTX 4090 即可跑

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉