先进的人工智能 (AI),如生成式 AI,正在增强我们所有的智能设备。然而,一个常见的误解是这些 AI 工作负载只能在云端和数据中心处理。事实上,大多数 AI 推理工作负载都可以在边缘(实际设备上)处理,这些工作负载比训练更便宜、运行速度更快。当今设备上 CPU 的可用性和不断增长的 AI 功能有助于将更多的 AI 推理处理推向边缘。虽然异构计算方法为行业提供了使用不同计算组件(包括 CPU、GPU 和 NPU)来满足不同 AI 用例和需求的灵活性,但边缘计算中的 AI 推理才是 CPU 大放异彩的地方。考虑到这一点,以下是 CPU 成为最佳 AI 推理工作负载目标的五大理由。
CPU 上的 AI 推理的好处
边缘效率边缘 AI 处理对科技行业非常重要,因为边缘 AI 处理越多,就无需将数据发送到云端或从云端发送,从而节省更多电量。这可以显著节省能源和成本。由于数据是在本地处理的,用户还可以享受更快、响应更快的 AI 推理体验以及更高的隐私性。这些对于功耗受限的设备和边缘应用尤其重要,例如无人机、智能可穿戴设备和智能家居设备,因为这些设备的功耗、延迟和安全性至关重要。在这种情况下,CPU 起着至关重要的作用,因为它能够以最有效的方式处理这些 AI 推理任务。 适用于各种 AI 推理任务的多功能性CPU 的多功能性使其能够处理各种 AI 推理任务,尤其是对于需要快速响应和可靠性能的应用程序和设备。例如,实时数据处理任务(如预测性维护、环境监测或自主导航)可以在 CPU 上更高效、更快速地处理。在工业物联网应用中,这可确保系统能够在几毫秒内对其环境或其环境中的任何变化做出响应。这对于安全性和功能性至关重要。 小型 AI 模型的出色性能CPU 支持各种 AI 框架,例如 Meta 的 PyTorch 和 ExecuTorch 以及 Google AI Edge 的 MediaPipe,从而可以轻松部署大型语言模型 (LLM) 进行 AI 推理。这些 LLM 正在快速发展,较小的紧凑模型和不断减少的参数数量解锁了卓越的用户体验。模型越小,它在 CPU 上运行的效率就越高。较小的 LLM(如新的 Llama 3.2 1B 和 3B 版本)的可用性对于实现大规模 AI 推理至关重要。最近,Arm 演示了通过 Arm CPU 优化内核在 Arm 驱动的移动设备上运行 Llama 3.2 3B LLM,可将提示处理速度提高 5 倍,将令牌生成速度提高 3 倍。我们已经看到开发人员编写了更紧凑的模型,以在低功耗处理器甚至微控制器上运行,从而节省时间和成本。Plumerai 提供用于加速 Arm Cortex-A 和 Cortex-M 片上系统 (SoC) 上的神经网络的软件解决方案,它在基于 Arm 的微控制器上运行超过 1MB 的 AI 代码,可执行面部检测和识别。为了保护用户隐私,所有推理都在芯片上完成,因此不会将任何面部特征或其他个人数据发送到云端进行分析。 为开发人员提供更大的灵活性和可编程性由于 CPU 的灵活性和可编程性,软件社区正在积极选择 CPU 作为针对其 AI 工作负载的首选路径。CPU 的灵活性更高,这意味着开发人员可以运行更广泛的软件和更多样化的数据格式,而无需开发人员构建其代码的多个版本。同时,每个月都有具有不同架构和量化方案的新模型出现。由于 CPU 具有高度可编程性,因此这些新模型可以在数小时内部署到 CPU 上。 AI 创新的架构基础这种开发人员创新建立在 CPU 架构的基础上,该架构不断添加新功能和指令来处理更高级的 AI 工作负载。CPU 的普及意味着开发人员可以访问这些功能,以进一步加速和创新基于 AI 的体验。事实上,CPU 架构的持续发展与现在更快、更智能的应用程序的发展直接相关。 为什么 CPU 对于 AI 推理不可或缺CPU 不仅仅是片上系统 (SoC) 设计的一个组件,它们还使 AI 变得实用、高效,并可在各种边缘应用程序和设备上使用。CPU 集效率、多功能性和可访问性于一体,对于 AI 推理不可或缺。它们通过在边缘处理 AI 任务来帮助降低能耗和延迟,同时为最终用户提供更快、响应更快的 AI 体验。随着 AI 不断发展并渗透到技术的各个方面,CPU 在处理 AI 推理工作负载方面的作用只会越来越大,从而确保 AI 能够在各个行业中广泛且可持续地部署。