什么是NPU？

科技 2024-10-08 12:21 美国

虽然NPU已经在智能手机上上市了几年，但英特尔、AMD和最近的微软才开始推出支持人工智能的消费者笔记本电脑，也就是具有NPU的PC。

NPU与AI PC的相关概念密切相关，并在AMD、苹果、英特尔和高通等主要硬件制造商制造的越来越多的芯片中被发现。它们开始频繁地出现在笔记本电脑中，特别是自从微软今年早些时候推出Copilot+ AI PC产品以来。

NPU是做什么的？

NPU的工作是充当人工智能的硬件加速器。

注:硬件加速是使用专用芯片来管理特定任务，例如主厨将不同的任务委托给副厨师，他们一起工作，按时准备一顿饭。NPU不会取代CPU或GPU；相反，NPU旨在补充CPU和GPU的优势，处理边缘人工智能等工作负载，以便CPU和GPU可以为他们擅长的任务保留处理时间。

GPU是专为渲染图形而设计的专用硬件加速器，但具有足够的潜在灵活性，也非常适合人工智能或某些类型的科学计算。在很长一段时间里，如果你有想要处理的人工智能工作负载，你期望使用一个或多个高功率[可能是Nvidia]进行实际数字处理图形处理器。一些公司正在努力为人工智能构建专门的硬件加速器，如谷歌的TPU，因为“GPU”中的"G"所附加的图形功能在纯用于人工智能处理的卡中没有用。

工作负载Workload

硬件加速在不涉及大量条件分支的重复性任务中最有用，特别是当有大量数据时。例如，渲染3D图形需要计算机来管理数以亿计的粒子和多边形的持续数据流。这是一项带宽繁重的任务。计算机图形、物理和天文学计算，以及大语言模型（LLM），如为现代人工智能聊天机器人提供动力的模型，是硬件加速的理想工作负载的几个例子。

人工智能工作负载有两种类型：训练和推理。训练几乎完全在GPU上完成。英伟达利用其近二十年对CUDA的投资及其在独立GPU方面的领导地位来主导这两个市场，而AMD已经远远排在第二位。大规模训练在数据中心规模上进行，当与基于云的服务（如ChatGPT）通信时运行的推理工作负载也一样。

NPU（以及它们所连接的AI PC）的运行规模要小得多。与在云端等待相比，它们通过为未来的人工智能工作负载提供额外的灵活性，并可能提高性能，相比集成GPU而言。

NPU是如何工作的？

一般来说，NPU依靠高度并行的设计来非常快速地完成重复性任务。相比之下，中央处理器是通才。这种差异反映在NPU的逻辑和物理架构上。如果CPU有一个或多个可以访问少数共享内存缓存的内核，则NPU具有多个子单元，每个子单元都有自己的小缓存。NPU适用于高通量和高度并行的工作负载，如神经网络和机器学习。

NPU、神经网络有一个共同的设计目标：模拟大脑信息处理的某些方面。

每个将NPU推向市场的设备制造商都有自己的微架构，专门针对其产品。大多数还发布了与NPU搭配的软件开发工具。例如，AMD提供Ryzen AI软件堆栈。

NPU和边缘智能

大多数NPU都位于笔记本电脑和个人电脑等面向消费者的设备中。例如，高通的Hexagon DSP为其Snapdragon处理器增加了NPU加速，这些处理器用于智能手机、平板电脑、可穿戴设备、高级驾驶辅助系统和物联网。苹果生态系统在为iPhone、iPad和iMac提供动力的A系列和M系列芯片中使用其神经引擎NPU。此外，一些个人电脑和笔记本电脑被指定为Copilot+，这意味着它们可以在板载NPU上运行微软的Copilot AI。然而，一些服务器端或基于云的系统也使用NPU。谷歌的张量处理单元是为数据中心的高性能机器学习而设计的NPU加速器。

NPU崛起的一个原因是边缘智能越来越重要。在传感器网络、移动设备（如手机和笔记本电脑）和物联网之间，对数据的需求已经越来越大。与此同时，基于云的服务受制于基础设施延迟。本地可以处理就不一定非得在云端做任何事情。这可能是一个优势，无论是在速度还是安全性方面。

无论您对NPU是否有特定用途，下次您购买PC时，您选择的芯片上都可能有一个NPU。

预计，到2026年底，100%的PC将有一个或多个NPU。换句话说，不要担心哪里可以购买带有NPU的系统。他们会来找你的。

http://mp.weixin.qq.com/s?__biz=MzU4ODY5MzkzOA==&mid=2247492227&idx=1&sn=c927c72db52c25e870118c6f70ccb07d

数字芯片实验室

前瞻性的眼光，和持之以恒的学习。

最新文章

Qualcomm Interview Question (Physical Design)

AMD interview Questions (Physical Design)

回首过去，英特尔的Architecture-Optimization (PAO) ，变成了PAOOOO

什么是英特尔的tick-tock策略

芯片中的buffer是什么？

台积电的美国工厂产能超出预期

半导体将在2025年强劲复苏

DDR的信号完整性和协议测试

DDR5信号完整性基础

RC寄生参数在芯片后端设计中的意义

跨时钟域导致的数据丢失问题

为什么要关注跨时钟域问题

跨时钟域场景下的汇聚Convergence问题

了解Verilog和SystemVerilog中的$monitor系统任务

三星推出适用于GPU、人工智能的GDDR7 DRAM

什么是建立和保持时间违例大小Slack

英特尔的研发支出比英伟达和AMD的总和还要多，但市值继续拉垮

数字芯片中保持时间的等式描述

数字芯片中建立时间的等式描述

介绍D触发器的电路级工作原理

什么是跨时钟域Clock Domain Crossing

什么是两级触发器同步器？

没有中国玩家？比利时微电子研究中心imec 的汽车芯片计划

DFT基本概念-测试点

Verilog task和function的区别

美光将在美国投资500亿美元，加速美国制造回归

System Verilog中的队列queue

如何降低片内总线上的功耗

3D NAND价格下跌，大厂考虑削减产量

什么是FPGA（现场可编程门阵列）？它是如何工作的？

什么是过程赋值Procedural Assignment

latch中的Timing Borrowing概念

ADATA推出DDR5 CUDIMM内存：在16 GB和24 GB容量中高达9200 MT/s

Verilog中的文件读取和写入

存储设备 – ROM介绍

verilog中的parameter、define和localparam

DFT vs DV，你应该选择哪一个？

Rambus宣布了业界首创的HBM4控制器IP，以加速下一代人工智能工作负载

英伟达和联发科合作设计3nm人工智能PC CPU

什么是芯片领域中的逻辑综合Synthesis

什么是NPU？

据报道，台积电的2纳米制程坐地起价，每片wafer高达3万美元

ASIC设计流程中的标准单元库

ASIC设计中的标准单元standard cell

芯片中的标准单元是什么？

数字芯片中的multi cycle path

芯片中的false path概念

false path的基础知识和示例

什么是芯片中的False Path

ARM也被报考虑收购英特尔部分业务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉