2024年是AIPC元年,以高通X Elite 为首的新品正式将NPU纳入了到了硬件军备大赛,开启了端侧AI的热潮。根据微软和高通的PY计划Copilot+的基准线是40Tops的Int 8性能,并且40Tops只是一个开端,要真的达到流畅稳定的支持各类应用,后续的新品产品还必须不断地提升NPU来增加Tops。
不管在PC场景下你是否真的需要Copilot+级别的AI,购买2024年之后的新消费级产品都必须顺带买NPU,那这个真的值得吗?
不可忽视的面积占用
NPU在算力效率上明显领先CPU和GPU,但考虑到不小的绝对需要算力,现阶段一颗高规格的NPU已然成为SoC中的面积消耗大户了。高规格的NPU必然造成成本上升,限制CPU、GPU以及其它部件的提升空间。
以AMD最新发布的Strix Point为例,其XDNA2 NPU可以提供最高达50Tops的算力,但与此同时其面占比也十分显著。
大致进行了一下测算,这个XDNA2的NPU面积大约等同于3个Zen 5核心,或者3个Zen 5c+L3 核心,或者接近一半的RDNA3+核显面积。也就是说,如果没有了NPU那么AMD可以大约同等成本下再增加两个Zen 5大核心,或者让核心到达24CU附近。
同样的问题其实也出现在了Intel的首个AIPC芯片Lunar Lake上。Lunar Lake的NPU位于Compute Tie上。从Intel官方的分区图可以看到这个48 Tops的NPU也是无比硕大,大约是4核心Skymont 集群的2.5倍大小,然后也有大核心集群大约70%的大小,8Xe2核显60%的大小。如果不做这个NPU,那么至少可以多塞8颗小核心,或者2颗大核心了。
NPU并没有很高的性能密度
虽然现在NPU在AIPC芯片中的面积占比不小,但是实际上其算力并没有想象中那么高。
这里我们以对GPU计算优化特别好的Intel为例。在Lunar Lake上,NPU的算力大概是最高Int8 48Tops,而它的Xe2核显则可以在int8 上做到更高的60Tops算力。因此如果你结合之前Lunar Lake GPU和NPU的面积占比,你可以看到说Intel的NPU基本没有太多性能密度上的优势,用NPU堆算力并不比用GPU更划算。
Lunar Lake 的一个Xe 核心有128个SP,如果按照2G的频率来计算,那么其FP32算力就是大约4Tops,等效于16Tops的Int8算力。同时Xe2 LP也新增了矩阵运算单元XMX,算力再增加4倍可以达到64Tops。考虑到实际标称的频率不足2G,所以可以看到Intel宣称的这个算力并没什么问题。总而言之就是NPU的算力看着很有限。
ps:AMD、Apple、高通这边的GPU对于矩阵计算的支持比较差,所以暂时不能这么计算。现在就Nvidia和Intel在这块上做得比较好。
独立NPU的真正要义?
虽然上面说了很多NPU的坏话,但是不可否认现在要做好AIPC体验,一个独立的NPU还是十分必要的。
独立NPU的真正要义其实是能耗比,而不是性能。Intel在Meteor Lake上其实已经搭载了NPU,并且也展示过了对应的性能表现。可以看到说,Meteor Lake的那个在上的NPU性能也是不如同期的Xe核显(这里的Xe核显甚至都还没XMX指令),但是即便这个NPU是在6nm SoC Tile上,在工艺显著弱于GPU Tile 5nm的情况下,调用了NPU后功耗大降。
小结:谁才需要NPU?
综上所述,现阶段独立NPU的意义主要是去帮助那些GPU矩阵计算不完善的产品(例如AMD、高通、苹果),以及提升低功耗场景下的能耗比表现。
在AMD这边,由于RDNA3系列由于在矩阵计算上的缺失,所以Zen 5的所有APU都自带一个大型的NPU是一个十分必要的选择。而对于非APU而言,基本都要搭载独显且没那么在意续航,NPU几乎就是徒增成本了。
在Intel这边,目前只给了Lunar Lake 足够的NPU算力,而之后的Arrow Lake将继续沿用Meteor Lake的NPU方案。Arrow Lake 系列针对AI的改进知识换用Xe LPG+ GPU,重新启用Xe LPG的XMX矩阵计算单元。我们按照4Xe LPG+的核心去计算,那么Arrow Lake 的核显如果能给到2G,那么GPU算力也有32Tops,SoC Tile中的11Tops,最终也勉强有40Tops。虽然能耗比没有多高,但是性能体验上也不会太差劲。Arrow Lake本身就不是面对极度低功耗的场景的,不少部分会搭载独显,选择牺牲一些功耗来降低成本也是一种不错的方法。真的需要低功耗AI的,选择Lunar Lake就行。
扫描二维码
关注&加群
MebiuW
点亮 ,告诉大家你也在看