聊聊AIPC时代的NPU的意义以及Intel/AMD的抉择

时尚   2024-06-28 21:49   云南  
点击蓝色字关注!(知乎@MebiuW 技术类同步更及时)





    2024年是AIPC元年,以高通X Elite 为首的新品正式将NPU纳入了到了硬件军备大赛,开启了端侧AI的热潮。根据微软和高通的PY计划Copilot+的基准线是40Tops的Int 8性能,并且40Tops只是一个开端,要真的达到流畅稳定的支持各类应用,后续的新品产品还必须不断地提升NPU来增加Tops。

    不管在PC场景下你是否真的需要Copilot+级别的AI,购买2024年之后的新消费级产品都必须顺带买NPU,那这个真的值得吗?

不可忽视的面积占用

    NPU在算力效率上明显领先CPU和GPU,但考虑到不小的绝对需要算力,现阶段一颗高规格的NPU已然成为SoC中的面积消耗大户了。高规格的NPU必然造成成本上升,限制CPU、GPU以及其它部件的提升空间。

    以AMD最新发布的Strix Point为例,其XDNA2 NPU可以提供最高达50Tops的算力,但与此同时其面占比也十分显著。

    大致进行了一下测算,这个XDNA2的NPU面积大约等同于3个Zen 5核心,或者3个Zen 5c+L3 核心,或者接近一半的RDNA3+核显面积。也就是说,如果没有了NPU那么AMD可以大约同等成本下再增加两个Zen 5大核心,或者让核心到达24CU附近。

    同样的问题其实也出现在了Intel的首个AIPC芯片Lunar Lake上。Lunar Lake的NPU位于Compute Tie上。从Intel官方的分区图可以看到这个48 Tops的NPU也是无比硕大,大约是4核心Skymont 集群的2.5倍大小,然后也有大核心集群大约70%的大小,8Xe2核显60%的大小。如果不做这个NPU,那么至少可以多塞8颗小核心,或者2颗大核心了。

NPU并没有很高的性能密度

    虽然现在NPU在AIPC芯片中的面积占比不小,但是实际上其算力并没有想象中那么高。

    这里我们以对GPU计算优化特别好的Intel为例。在Lunar Lake上,NPU的算力大概是最高Int8 48Tops,而它的Xe2核显则可以在int8 上做到更高的60Tops算力。因此如果你结合之前Lunar Lake GPU和NPU的面积占比,你可以看到说Intel的NPU基本没有太多性能密度上的优势,用NPU堆算力并不比用GPU更划算。

    Lunar Lake 的一个Xe 核心有128个SP,如果按照2G的频率来计算,那么其FP32算力就是大约4Tops,等效于16Tops的Int8算力。同时Xe2 LP也新增了矩阵运算单元XMX,算力再增加4倍可以达到64Tops。考虑到实际标称的频率不足2G,所以可以看到Intel宣称的这个算力并没什么问题。总而言之就是NPU的算力看着很有限。

    ps:AMD、Apple、高通这边的GPU对于矩阵计算的支持比较差,所以暂时不能这么计算。现在就Nvidia和Intel在这块上做得比较好。

独立NPU的真正要义?

    虽然上面说了很多NPU的坏话,但是不可否认现在要做好AIPC体验,一个独立的NPU还是十分必要的。

    独立NPU的真正要义其实是能耗比,而不是性能。Intel在Meteor Lake上其实已经搭载了NPU,并且也展示过了对应的性能表现。可以看到说,Meteor Lake的那个在上的NPU性能也是不如同期的Xe核显(这里的Xe核显甚至都还没XMX指令),但是即便这个NPU是在6nm SoC Tile上,在工艺显著弱于GPU Tile 5nm的情况下,调用了NPU后功耗大降。 

小结:谁才需要NPU?

    综上所述,现阶段独立NPU的意义主要是去帮助那些GPU矩阵计算不完善的产品(例如AMD、高通、苹果),以及提升低功耗场景下的能耗比表现。

    在AMD这边,由于RDNA3系列由于在矩阵计算上的缺失,所以Zen 5的所有APU都自带一个大型的NPU是一个十分必要的选择。而对于非APU而言,基本都要搭载独显且没那么在意续航,NPU几乎就是徒增成本了。

    在Intel这边,目前只给了Lunar Lake 足够的NPU算力,而之后的Arrow Lake将继续沿用Meteor Lake的NPU方案。Arrow Lake 系列针对AI的改进知识换用Xe LPG+ GPU,重新启用Xe LPG的XMX矩阵计算单元。我们按照4Xe LPG+的核心去计算,那么Arrow Lake 的核显如果能给到2G,那么GPU算力也有32Tops,SoC Tile中的11Tops,最终也勉强有40Tops。虽然能耗比没有多高,但是性能体验上也不会太差劲。Arrow Lake本身就不是面对极度低功耗的场景的,不少部分会搭载独显,选择牺牲一些功耗来降低成本也是一种不错的方法。真的需要低功耗AI的,选择Lunar Lake就行。


扫描二维码

关注&加群

MebiuW

 

点亮 ,告诉大家你也在看

MebiuW
聊数码 聊芯片 非EE专业(纯兴趣民科)会发薅羊毛广告
 最新文章