虽然NPU已经在智能手机上上市了几年,但英特尔、AMD和最近的微软才开始推出支持人工智能的消费者笔记本电脑,也就是具有NPU的PC。
NPU与AI PC的相关概念密切相关,并在AMD、苹果、英特尔和高通等主要硬件制造商制造的越来越多的芯片中被发现。它们开始频繁地出现在笔记本电脑中,特别是自从微软今年早些时候推出Copilot+ AI PC产品以来。
NPU是做什么的?
NPU的工作是充当人工智能的硬件加速器。
注:硬件加速是使用专用芯片来管理特定任务,例如主厨将不同的任务委托给副厨师,他们一起工作,按时准备一顿饭。NPU不会取代CPU或GPU;相反,NPU旨在补充CPU和GPU的优势,处理边缘人工智能等工作负载,以便CPU和GPU可以为他们擅长的任务保留处理时间。
GPU是专为渲染图形而设计的专用硬件加速器,但具有足够的潜在灵活性,也非常适合人工智能或某些类型的科学计算。在很长一段时间里,如果你有想要处理的人工智能工作负载,你期望使用一个或多个高功率[可能是Nvidia]进行实际数字处理图形处理器。一些公司正在努力为人工智能构建专门的硬件加速器,如谷歌的TPU,因为“GPU”中的"G"所附加的图形功能在纯用于人工智能处理的卡中没有用。
工作负载Workload
硬件加速在不涉及大量条件分支的重复性任务中最有用,特别是当有大量数据时。例如,渲染3D图形需要计算机来管理数以亿计的粒子和多边形的持续数据流。这是一项带宽繁重的任务。计算机图形、物理和天文学计算,以及大语言模型(LLM),如为现代人工智能聊天机器人提供动力的模型,是硬件加速的理想工作负载的几个例子。
人工智能工作负载有两种类型:训练和推理。 训练几乎完全在GPU上完成。英伟达利用其近二十年对CUDA的投资及其在独立GPU方面的领导地位来主导这两个市场,而AMD已经远远排在第二位。大规模训练在数据中心规模上进行,当与基于云的服务(如ChatGPT)通信时运行的推理工作负载也一样。
NPU(以及它们所连接的AI PC)的运行规模要小得多。与在云端等待相比,它们通过为未来的人工智能工作负载提供额外的灵活性,并可能提高性能,相比集成GPU而言。
NPU是如何工作的?
一般来说,NPU依靠高度并行的设计来非常快速地完成重复性任务。相比之下,中央处理器是通才。这种差异反映在NPU的逻辑和物理架构上。如果CPU有一个或多个可以访问少数共享内存缓存的内核,则NPU具有多个子单元,每个子单元都有自己的小缓存。NPU适用于高通量和高度并行的工作负载,如神经网络和机器学习。
NPU、神经网络有一个共同的设计目标:模拟大脑信息处理的某些方面。
每个将NPU推向市场的设备制造商都有自己的微架构,专门针对其产品。大多数还发布了与NPU搭配的软件开发工具。例如,AMD提供Ryzen AI软件堆栈。
NPU和边缘智能
大多数NPU都位于笔记本电脑和个人电脑等面向消费者的设备中。例如,高通的Hexagon DSP为其Snapdragon处理器增加了NPU加速,这些处理器用于智能手机、平板电脑、可穿戴设备、高级驾驶辅助系统和物联网。苹果生态系统在为iPhone、iPad和iMac提供动力的A系列和M系列芯片中使用其神经引擎NPU。此外,一些个人电脑和笔记本电脑被指定为Copilot+,这意味着它们可以在板载NPU上运行微软的Copilot AI。然而,一些服务器端或基于云的系统也使用NPU。谷歌的张量处理单元是为数据中心的高性能机器学习而设计的NPU加速器。
NPU崛起的一个原因是边缘智能越来越重要。在传感器网络、移动设备(如手机和笔记本电脑)和物联网之间,对数据的需求已经越来越大。与此同时,基于云的服务受制于基础设施延迟。本地可以处理就不一定非得在云端做任何事情。这可能是一个优势,无论是在速度还是安全性方面。
无论您对NPU是否有特定用途,下次您购买PC时,您选择的芯片上都可能有一个NPU。
预计,到2026年底,100%的PC将有一个或多个NPU。换句话说,不要担心哪里可以购买带有NPU的系统。他们会来找你的。