微软发布Phi-4，最强小模型！参数极小、超GPT-4o

文摘 2024-12-16 02:36 河北

微软研究院发布了最强小参数模型——Phi-4。

Phi系列模型自今已经发布了5代，Phi-4也延续了之前的小参数模式只有140亿。

但在GPQA研究生水平、MATH数学基准中，分别达到了56.1和80.4超过了GPT-4o，同时也超过了同类型的开源模型Qwen 2.5 -14B和Llama-3.3-70B。

而在美国数学竞赛AMC的测试中，Phi-4达到了惊人的91.8分，再次超过了GeminiPro 1.5、GPT-4o、Claude 3.5 Sonnet、Qwen 2.5等知名开闭源模型，甚至整体性能可以与4050亿参数的Llama-3.1相媲美。

这也就是说，只要使用了高质量数据和创新训练方法，小参数模型同样可以战胜大参数，但在部署、应用和推理方面极大减少了对AI算力和环境的要求。

使用高质量合成数据

Phi-4能以如此小的参数获得巨大性能，使用高质量合成训练数据是关键环节之一。

传统的大模型通常依赖于从网络抓取或公开数据库获取的真实世界文本作为训练数据，这种方法虽然能够提供丰富的信息来源，但也容易受到噪声干扰和偏见影响。

Phi-4则使用了种子策划、多Agent提示、自我修订工作流、重写和增强以及指令反转等多种合成方法，有效解决了传统无监督数据集的缺点。

种子策划是合成数据生成的起点。Phi-4从多个领域提取高质量的数据种子，为合成数据生成打下坚实基础，使得能够创建针对模型训练目标的练习、讨论和推理任务。

策划的种子包括从网页、书籍和代码库中提取的文段和代码片段，这些内容展示了高复杂性、深度推理和教育价值。为了确保质量，采用了两阶段过滤过程：首先是识别具有强教育潜力的页面，然后是将选定的页面分割成段落，对每个段落进行事实和推理内容的评分。

此外，多Agent提示允许不同智能体之间进行交互对话，从而创造出更加多样化且贴近真实应用场景的交流场景；而自我修订工作流则鼓励模型参与到自身的编辑过程中，以此提高输出内容的质量和一致性。

通过改变任务描述的方式，指令反转可以增加模型处理不同类型问题的能力，进一步增强了其灵活性和适应性。

总体上，一共生成了50 种不同类型的合成数据集，涵盖广泛的主题和技能，总计约 400B未加权的高质量token数据。

创新训练方法

为了确保phi-4能在广泛的任务类型上表现出色，研究人员使用了一系列针对性创新训练方法，并根据实际需求调整各类数据的比例。尤其是针对长上下文理解能力的需求，phi-4增加了rope位置编码的基础频率至25万次，并相应地降低了最大学习率，以更好地适应更长的文本序列。

这种做法有效提升了模型对于复杂结构化信息的理解力，使其在面对需要综合分析多个段落甚至整篇文章的问题时也能游刃有余。phi-4还特别注重了不同类型数据之间的平衡，避免某类数据过多导致其他方面性能下降的情况发生。

而在 phi-4 的后训练过程中，研究团队采用了两种形式的 DPO 数据对模型进行了强化训练。第一种是基于人工标注的 SFT数据，即由专家精心挑选并标记好的问答对；

第二种则是自动构建的 DPO 对，这种方法通过搜索重要的转折点，将原始对话片段拆分成多个选项，并让模型从中选择最优解。通过结合这两种方式，phi-4 不仅学会了如何产生更符合预期的回答，还能够在不同情境下灵活调整语气和风格，从而提供更加个性化的交互体验。

此外，phi-4还引入了一些创新性的后训练方法，以增强其在特定领域内的表现。例如，在 STEM领域问题解答方面，phi-4 利用了一个名为Math-Shepherd 的工具来进行验证和强化学习。Math-Shepherd 可以自动检查模型生成的答案是否正确，并且在必要时提供额外指导，帮助模型逐步掌握正确的解题思路。

这种方法有效地解决了传统无监督数据集中常见的逻辑不严密等问题，使得 phi-4 在数学竞赛类题目上的准确率达到了惊人的80.4%，远超其他同类产品。

此外，针对编程代码评估任务，Phi-4 也采取了类似的方法，通过对大量开源项目中的代码片段进行分析和总结，提升了其在该领域的执行效率和准确性。

值得一提的是，微软AI副总裁、phi系列模型的灵魂人物之一Sébastien Bubeck已经离开了微软加入了OpenAI。

本文素材来源微软phi-4 ，如有侵权请联系删除

END

AIGC开放社区

专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

最新文章

所有用户无限用Sora，OpenAI放圣诞福利！

极限压缩380倍！比OpenAI的Whisper更高效，开源模型超2000颗星

OpenAI 12天直播大盘点！o3、Sora，一次看完所有新技术

AI工具 | AI商品图工具合集

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

函子科技CEO蒋耀锴，将出席“ISIG-AIGC多模态技术与应用峰会”

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

AI——有自由意志会怎样？

AI大模型/AIGC多模态/RPA超级自动化/低代码四大科技峰会来袭！

集思科技销售VP陈曙光，将出席“ISIG-AIGC多模态技术与应用峰会”

讯飞机器人超脑平台总经理刘可为，将出席“ISIG-AI大模型技术与应用发展峰会”

谷歌版o1模型发布：霸榜排名第一，深度展示思维链

ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能体了

苹果正与腾讯、字节跳动洽谈，在iPhone集成类ChatGPT

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

聚力维度创始人&CEO赵天奇，将出席“ISIG-AIGC多模态技术与应用峰会”

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软全球黑带技术专家武帅，将出席“ISIG-AI大模型技术与应用发展峰会”

OpenAI整大活！ChatGPT新增电话功能，全民AGI要来了

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

重磅来袭！HealthAI 2024健康智能挑战赛启动报名

英伟达发布微型大模型计算机，每秒计算67万亿次

达观数据联合创始人张健，将出席“ISIG-AI大模型技术与应用发展峰会”

壹沓科技大模型产品总监王琰元，将出席“ISIG-AI大模型技术与应用发展峰会”

重磅！OpenAI开放满血o1模型API，成本暴降60%

开启智能之旅！RPA超级自动化与流程挖掘峰会火热报名中~

Liquid AI获2.5亿美元融资，创新液态大模型

ChatGPT搜索大更新！实时搜索、高级语音，AI搜索时代来了

AI工具 | AI内容检测合集

AI加速，码力全开！低代码/零代码技术与应用发展峰会火热报名中~

超过Sora！谷歌发布Veo 2，支持4K、逼真到难以分辨

开个AI局，探索大模型的无限可能！AI大模型技术与应用发展峰会火热报名中~

多模态解锁无限可能！AIGC多模态技术与应用峰会火热报名中~

微软发布Phi-4，最强小模型！参数极小、超GPT-4o

IBM推出化学大模型：可精准预测分子性质和行为

突破性功能！OpenAI发布ChatGPT Projects，万能工具箱上线！

AI核心技术，颠覆传统数据整合模式！全球数据管理领导者Denodo技术干货分享来啦~

微软 Azure AI 荣耀登榜，2024最受开发者欢迎的 AI 应用开发平台！

极客说｜深度对比：SFT、ReFT、RHLF、RLAIF、DPO、PPO

AI现身2024国际象棋世界冠军赛！世界棋王丁立人守擂，看AI如何让国际象棋更有趣

重磅！ChatGPT解锁高级视频对话、屏幕共享，实时交互时代

ISIG年度盛会来袭！RPA/低代码/AI大模型/AIGC多模态四大科技峰会共掀数字化创新浪潮

AI Agent成主打！谷歌发布超强多模态大模型—Gemini 2.0

极客说｜多智能体时代

王者降临！苹果全家桶接入ChatGPT，重塑iPhone、iPad 、Siri

多模态解锁无限可能！AIGC多模态技术与应用峰会报名开启~

人人可用，AI Copilot 场景学习资料大放送！

史上最贵！首个AI Agent程序员商业化，比ChatGPT Pro贵2倍

突发！OpenAI发布Canvas，ChatGPT新增史诗级功能

AI应用 | 可口可乐AI广告惹争议

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉