谢谢微软，又又又Open了！一口气发布3款Phi-3.5新模型，领先Llama3.1和谷歌同级模型

科技 2024-08-21 20:01 山西

大数据文摘授权转载自夕小瑶科技说
作者 | 付奶茶

家人们！微软又用爱发电了！一觉醒来，微软发布了最新的小模型三兄弟：

Phi-3.5-MoE-instruct
Phi-3.5-mini-instruct
Phi-3.5-vision-instruct

三兄弟的表现可以说是相当的不错，其中，Phi-3.5-MoE 在基准测试中击败了 Llama 3.1 8B、Mistral-Nemo-12B，Gemini 1.5 Flash。在推理能力方面它也优于其他一些较大的模型，仅落后于 GPT-4o-mini，直接分分钟登顶同级模型！

真不错呀！让奶茶带大家看一下！

不同用途不同选择！

三个Phi 3.5模型有不同的专长！

Phi-3.5 MoE - 微软专家大集合

大哥Phi-3.5 MoE 是一个混合专家模型，将多个不同的模型类型组合成一个，其中每个模型类型专门从事不同的任务。该模型有420亿个活动参数的架构，支持128k token上下文长度。

划重点：

6.6B 活动参数（总参数42B）
128K 上下文、多语言和相同分词器
在 4.9T tokens 上进行训练
使用 512 张 H100 进行训练（23 天）

为了在各种推理任务中脱颖而出，Phi-3.5 MoE在代码、数学和多语言理解方面提供了强大的性能，基准测试中通表现都很好，在5个单项的MMLU(大规模多任务语言理解)测试中，它也击败了gpt-4o mini！

在长文本上超越了明显优于仅支持8K上下文长度的Gemma-2系列，与其他更大更强的开源模型如Llama-3.1-8B-instruct和Mistral-Nemo-12B-instruct-2407也可以一比，而且已经比GPT-4o好了！

总的来说，只有6.6B活动参数的Phi-3.5-MoE实现了与更大模型相似的语言理解和数学水平。但是，对于某些任务，它仍然受到其大小的根本上限制，因为，该模型根本不具备存储太多事实知识的能力，作者指出，这个弱点可以通过使用搜索引擎来解决，特别是在RAG设置下使用该模型时。

模型开源地址：
https://huggingface.co/microsoft/Phi-3.5-MoE-instruct

Phi 3.5 mini - 针对计算受限的环境进行了优化

二哥Phi-3.5 Mini Instruct主打一个轻量级！一共有38亿参数，专为遵守指令而设计，并支持128k token上下文长度。非常适合在受限的环境中使用！Phi3.5 Mini Instruct模型虽然小巧，但在多语言和多轮对话任务中表现出色，相较其前代有了显著提升。它在多个基准测试中的性能接近最先进水平，尤其在RepoQA测试中超越了其他同类模型（如Llama-3.1-8b-instruct和Mistral-7b-instruct）。

划重点：

3.8B参数，击败Llama3.1 8B和Mistral 7B
多语言和 32K 词汇的分词器
在 3.4T tokens 上进行训练
使用 512 张 H100 进行训练（只需要10 天！）

▲在多语言MMLU、MEGA和多语言MMLU-pro数据集上的多语言能力。总的来说，即使只有38 b的活动参数，与其他具有更大活动参数的模型相比，该模型在多语言任务上是比较出色！

▲RepoQA基准测试遥遥领先

模型开源地址：
https://huggingface.co/microsoft/Phi-3.5-mini-instruct

Phi-3.5 Vision Instruct - 高级多模态推理

三弟Phi-3.5 Vision Instruct是一款融合文本与图像处理能力的视觉指令模型。与同系列其他型号类似，它支持128k token的上下文长度，能够处理复杂的多帧视觉任务。

微软指出，该模型采用经过筛选的公开数据集进行训练，增强了模型的多帧图像理解和推理能力。主要功能包括详细的图像对比、多图总结与叙事，以及视频摘要，侧重于高质量和推理密集型数据。

划重点：

4.2B 参数，在部分基准测试上击败了GPT-4o（不是mini！！！）
使用 500B tokens 进行训练
使用 256 张 A100 进行训练（6 天）
专注于TextVQA + ScienceVQA

▲采用了BLINK基准测试，包含14个视觉任务，总体而言，模型在相同尺寸下普遍优于竞争对手，并在多帧能力和视频摘要方面与更大的模型竞争。

模型开源地址：
https://huggingface.co/microsoft/Phi-3.5-vision-Instruct

怎么训练？

给大家搬运下官方的训练步骤！我们以大哥Phi-3.5-MoE-instruct 的训练为例，Phi-3.5系列模型都集成到 transformers 的官方版本中，官方版本后续也通过 pip 发布：

加载模型时，确保在 from_pretrained() 函数中传递 trust_remote_code=True 作为参数。可以通过以下命令验证当前的 transformers 版本：


pip list | grep transformers

安装所需软件包示例：


flash_attn==2.5.8torch==2.3.1accelerate==0.31.0transformers==4.43.0

分词器

Phi-3.5-MoE-Instruct 支持最多 32064 个 token 的词汇量,分词器文件已经提供了可以用于下游微调的占位符 token，可以扩展到模型的最大词汇量。

输入格式

鉴于训练数据的特性，Phi-3.5-MoE-instruct 模型最适合使用以下聊天格式的提示：

本地加载模型在获得 Phi-3.5-MoE-instruct 模型检查点后，用户可以使用以下示例代码进行推理。


import torchfrom transformers import AutoModelForCausalLM, AutoTokenizer, pipeline 
torch.random.manual_seed(0) 
model = AutoModelForCausalLM.from_pretrained(     "microsoft/Phi-3.5-MoE-instruct",      device_map="cuda",      torch_dtype="auto",      trust_remote_code=True,  ) 
tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-MoE-instruct") 
messages = [     {"role": "system", "content": "You are a helpful AI assistant."},     {"role": "user", "content": "Can you provide ways to eat combinations of bananas and dragonfruits?"},     {"role": "assistant", "content": "Sure! Here are some ways to eat bananas and dragonfruits together: 1. Banana and dragonfruit smoothie: Blend bananas and dragonfruits together with some milk and honey. 2. Banana and dragonfruit salad: Mix sliced bananas and dragonfruits together with some lemon juice and honey."},     {"role": "user", "content": "What about solving an 2x + 3 = 7 equation?"}, ] 
pipe = pipeline(     "text-generation",     model=model,     tokenizer=tokenizer, ) 
generation_args = {     "max_new_tokens": 500,     "return_full_text": False,     "temperature": 0.0,     "do_sample": False, } 
output = pipe(messages, **generation_args) print(output[0]['generated_text'])

结语

大家觉得Phi-3.5系列的三兄弟表现如何？虽然不同的基准测试可能让大家对他们的能力有不同的评价，褒贬不一，但不得不说，微软这次确实又开放了一个不错的模型，又OpenAI了不是！

据奶茶今早看到的新闻，OpenAI 推出了 GPT-4o 微调功能，每天免费送100万Token，允许开发者为特定用例定制模型～

结合今天微软的又一开源，开源和闭源的发展越来越像两条快速延伸平行线，一方面是模型的开放，另一方面是在引导应用方向上的开放。

对此，大家怎么看？欢迎在评论区分享你的观点，与我们一起探讨！

参考资料

[1]https://x.com/tuturetom/status/1826064033386295518
[2]https://mp.weixin.qq.com/s/8zA77TdPDQWtZ_c_vwg4Aw

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651735050&idx=1&sn=3c8fc95e1044f2e571f045e853fa90c0

大数据文摘

普及数据思维，传播数据文化

最新文章

贝索斯领投、OpenAI连续跟投，这家机器人公司再融4亿美金

你愿意和AI恋人共度一生吗？

比ChatGPT更牛！苹果新AI模型刷新交互体验！能看懂你的手机屏幕！平板和安卓机也都行

专访"Prompt之神"李继刚 - 我想用20年时间，给世界留一句话。

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

OpenAI CTO深夜离职！Altman再发长文：感谢她做的一切，我将专注于技术和产品

热门视频：人形机器人一拳破次元！远程暴打沙袋和乒乓球

Sam Altman罕见发长文：ASI终将至，准备好迎接“智能时代”吧！深度学习是有效路径

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉