近年来,人工智能领域取得了迅速的发展,越来越多的复杂模型不断推动机器理解和生成能力的极限。在这些模型中,Phi-3.5 模型家族脱颖而出,这一系列的轻量级模型旨在提供卓越的性能,同时保持计算效率。本文将详细介绍 Phi-3.5 家族中的三位重要成员:Phi-3.5 Mini、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct。每个模型都代表了一种独特的 AI 方法,结合了强大的处理能力和特殊的增强功能,以支持广泛的应用场景。
Phi-3.5 Mini 证明了紧凑型模型可以实现的强大性能。虽然仅有 38 亿参数,但它是一个密集的仅解码器 Transformer 模型,使用与 Phi-3 Mini 相同的分词器。尽管其体积较小,Phi-3.5 Mini 依然能够提供与更大规模模型相当的多语言理解和推理能力。
https://huggingface.co/microsoft/Phi-3.5-mini-instruct
关键特性
模型架构:Phi-3.5 Mini 建立在包括合成数据和经过过滤的公开网站数据集之上,重点关注高质量、富含推理的数据。这种质量优先于数量的策略确保了模型在需要深度推理和精确理解的任务中得到了优化。
训练与微调:该模型经过了严格的增强,包括监督微调、近端策略优化(PPO)和直接偏好优化(DPO)。这些过程确保了 Phi-3.5 Mini 严格遵循指令并结合了强大的安全措施。
性能表现:虽然该模型在多语言任务中表现出色,但其紧凑的体积对存储和调用事实知识有一定限制。用户可能会遇到事实性错误,但通过在检索增强生成(RAG)设置中使用搜索引擎等外部资源可以减轻这些问题。
Phi-3.5-MoE-instruct 将 Phi-3 模型家族的能力提升到了一个新高度,采用了专家混合(MoE)架构。该模型拥有 16 倍于 38 亿的参数,旨在提供增强的性能,以应对通用和专门的 AI 任务。
关键特性
模型架构:Phi-3.5-MoE-instruct 是一个仅解码器的 Transformer 模型,使用与前代模型相同的分词器,其词汇量为 32,064。MoE 结构允许模型根据任务的需要动态激活其部分参数,当使用两个专家时,模型有 66 亿个活跃参数。
训练与微调:与 Phi-3.5 Mini 一样,该模型经过了监督微调、PPO 和 DPO,确保它严格遵循指令并结合了强大的安全功能。模型能够动态分配计算资源,使其特别适合内存和计算受限的环境,以及对低延迟有严格要求的场景。
性能表现:Phi-3.5-MoE-instruct 在需要强推理能力的任务中表现出色,尤其是在数学和逻辑方面。它适用于广泛的商业和研究用途,特别是在英语环境中,是开发者和研究人员的多用途工具。
Phi-3.5-vision-instruct 模型在多模态 AI 领域迈出了重要一步,结合了语言处理与图像理解。该模型拥有 42 亿参数,能够处理文本和视觉数据,是一款功能强大的多场景应用工具。
关键特性
模型架构:Phi-3.5-vision-instruct 是一个多模态模型,集成了图像编码器、连接器、投影器和 Phi-3 Mini 语言模型。该架构使其能够处理和生成文本和图像的见解,支持需要深度理解视觉和语言数据的任务。
训练与微调:该模型经过了广泛的增强,包括监督微调和 DPO,确保其能够精确处理复杂的多模态任务。它支持 128K 的上下文长度(以标记计),能够处理大量输入,如长文本段落或图像序列。
性能表现:Phi-3.5-vision-instruct 在光学字符识别(OCR)、图表理解、多个图像对比以及多图像或视频片段摘要等任务中表现尤为出色。它被设计用于广泛的商业和研究用途,为需要集成文本和视觉处理的 AI 系统开发者提供了一个多用途工具。
Phi-3.5 模型家族凭借其三个独特模型,展示了轻量级、专门化的 AI 模型在不同任务中提供高性能的潜力。无论是紧凑高效的 Phi-3.5 Mini,动态强大的 Phi-3.5-MoE-instruct,还是多模态的 Phi-3.5-vision-instruct,每个模型都具有独特的优势,能够满足 AI 领域的不同需求。随着人工智能研究与开发的不断推进,Phi-3.5 模型家族是创新驱动的典范,它们不仅强大,而且在各种使用场景中表现出色,并具有高度的适应性。
更多:
在 Jetson 平台上通过 ONNX 运行 Phi-3-vision 模型
基于英伟达NIM与微软Phi-3-vision,轻松开发OCR识别小应用