聊聊AIPC时代的NPU的意义以及Intel/AMD的抉择

时尚 2024-06-28 21:49 云南

点击蓝色字关注！（知乎@MebiuW 技术类同步更及时）

2024年是AIPC元年，以高通X Elite 为首的新品正式将NPU纳入了到了硬件军备大赛，开启了端侧AI的热潮。根据微软和高通的PY计划Copilot+的基准线是40Tops的Int 8性能，并且40Tops只是一个开端，要真的达到流畅稳定的支持各类应用，后续的新品产品还必须不断地提升NPU来增加Tops。

不管在PC场景下你是否真的需要Copilot+级别的AI，购买2024年之后的新消费级产品都必须顺带买NPU，那这个真的值得吗？

不可忽视的面积占用

NPU在算力效率上明显领先CPU和GPU，但考虑到不小的绝对需要算力，现阶段一颗高规格的NPU已然成为SoC中的面积消耗大户了。高规格的NPU必然造成成本上升，限制CPU、GPU以及其它部件的提升空间。

以AMD最新发布的Strix Point为例，其XDNA2 NPU可以提供最高达50Tops的算力，但与此同时其面占比也十分显著。

大致进行了一下测算，这个XDNA2的NPU面积大约等同于3个Zen 5核心，或者3个Zen 5c+L3 核心，或者接近一半的RDNA3+核显面积。也就是说，如果没有了NPU那么AMD可以大约同等成本下再增加两个Zen 5大核心，或者让核心到达24CU附近。

同样的问题其实也出现在了Intel的首个AIPC芯片Lunar Lake上。Lunar Lake的NPU位于Compute Tie上。从Intel官方的分区图可以看到这个48 Tops的NPU也是无比硕大，大约是4核心Skymont 集群的2.5倍大小，然后也有大核心集群大约70%的大小，8Xe2核显60%的大小。如果不做这个NPU，那么至少可以多塞8颗小核心，或者2颗大核心了。

NPU并没有很高的性能密度

虽然现在NPU在AIPC芯片中的面积占比不小，但是实际上其算力并没有想象中那么高。

这里我们以对GPU计算优化特别好的Intel为例。在Lunar Lake上，NPU的算力大概是最高Int8 48Tops，而它的Xe2核显则可以在int8 上做到更高的60Tops算力。因此如果你结合之前Lunar Lake GPU和NPU的面积占比，你可以看到说Intel的NPU基本没有太多性能密度上的优势，用NPU堆算力并不比用GPU更划算。

Lunar Lake 的一个Xe 核心有128个SP，如果按照2G的频率来计算，那么其FP32算力就是大约4Tops，等效于16Tops的Int8算力。同时Xe2 LP也新增了矩阵运算单元XMX，算力再增加4倍可以达到64Tops。考虑到实际标称的频率不足2G，所以可以看到Intel宣称的这个算力并没什么问题。总而言之就是NPU的算力看着很有限。

ps：AMD、Apple、高通这边的GPU对于矩阵计算的支持比较差，所以暂时不能这么计算。现在就Nvidia和Intel在这块上做得比较好。

独立NPU的真正要义？

虽然上面说了很多NPU的坏话，但是不可否认现在要做好AIPC体验，一个独立的NPU还是十分必要的。

独立NPU的真正要义其实是能耗比，而不是性能。Intel在Meteor Lake上其实已经搭载了NPU，并且也展示过了对应的性能表现。可以看到说，Meteor Lake的那个在上的NPU性能也是不如同期的Xe核显（这里的Xe核显甚至都还没XMX指令），但是即便这个NPU是在6nm SoC Tile上，在工艺显著弱于GPU Tile 5nm的情况下，调用了NPU后功耗大降。

小结：谁才需要NPU？

综上所述，现阶段独立NPU的意义主要是去帮助那些GPU矩阵计算不完善的产品（例如AMD、高通、苹果），以及提升低功耗场景下的能耗比表现。

在AMD这边，由于RDNA3系列由于在矩阵计算上的缺失，所以Zen 5的所有APU都自带一个大型的NPU是一个十分必要的选择。而对于非APU而言，基本都要搭载独显且没那么在意续航，NPU几乎就是徒增成本了。

在Intel这边，目前只给了Lunar Lake 足够的NPU算力，而之后的Arrow Lake将继续沿用Meteor Lake的NPU方案。Arrow Lake 系列针对AI的改进知识换用Xe LPG+ GPU，重新启用Xe LPG的XMX矩阵计算单元。我们按照4Xe LPG+的核心去计算，那么Arrow Lake 的核显如果能给到2G，那么GPU算力也有32Tops，SoC Tile中的11Tops，最终也勉强有40Tops。虽然能耗比没有多高，但是性能体验上也不会太差劲。Arrow Lake本身就不是面对极度低功耗的场景的，不少部分会搭载独显，选择牺牲一些功耗来降低成本也是一种不错的方法。真的需要低功耗AI的，选择Lunar Lake就行。

扫描二维码

关注&加群

MebiuW

点亮，告诉大家你也在看

http://mp.weixin.qq.com/s?__biz=MjM5MzM3OTc2Mg==&mid=2447556839&idx=1&sn=fa17d79aefd9ea84d4aefdb2c96c923a

MebiuW

聊数码聊芯片非EE专业（纯兴趣民科）会发薅羊毛广告

最新文章

赛博橘猫 CPU IPC 24V1版（24.09.29)

Intel Xeon 6P Granite Rapids 简评：终于能在数据中心和AMD一起竞争性能了！

为什么认为“高通拟全盘收购Intel”这瓜不保熟

一文说透国产“65nm”光刻机的水平

【极客湾测评观后感】A18 系列SoC，A13后时代唯一不拉跨的？

Intel 月亮湖 Lunar Lake 技术解析：X86的续航新里程碑！

为什么 AMD 的 Zen 5c 不上高端桌面处理器？

Intel Atom 特别专辑-历程篇：姓A的还是得姓A的来打！

聊聊AIPC时代的NPU的意义以及Intel/AMD的抉择

Intel 3 技术解析：完整体的7nm提升不小，但仍然不够N3级别

再谈 Intel Lakefield: 深藏功与名的“失败产物”

聊聊Intel Core Ultra 200 “台积电全家桶”的一些可能

Intel Core Ultra 2代放弃超线程：一个违背祖宗的决定？

从AMD Zen 5 PPT 中发现的能耗比疑云。

【预览】Intel 下一代架构公开，小核成神！

工艺百科-三星改名篇：说一说三星半导体“科技以改名为本”的历史

聊一聊 Intel 超低功耗的N3B SoC 月亮湖Lunar Lake

工艺百科之Intel 14nm：诞生于辉煌隐退于平淡

【薅羊毛】MacBook M3 低价考虑下？

【薅羊毛】Realme GT5 Pro & 一加12 破发神车！

【薅羊毛】iPhone 15 Pro Max 价格崩盘~速上车！

Redmi K70 Pro 上手体验：精致再升级性能稳定发挥

Redmi Note 13 Pro+ 上手体验：越级的质感和体验

【羊毛神车】速囤 LG 原装拆机 HDMI 线神车

急就章：简评Apple A17 Pro，Only Apple Can Do 的拉胯！

【历史低价】AirPods Pro 2和Switch 神价

工艺杂谈：EUV被封锁的情况下，DUV工艺的极限是多少？

【好物推荐】：东方树叶、NAS、米诺地尔

工艺百科-特别篇：不可言述的9000S相关

工艺百科-Intel 10nm篇：疯狂到极致就是翻车

AMD RDNA4 入魔简评：GPU设计又一天花板

Redmi Note 12 Turbo 上手简评：性能与质感双提升

“双”浅谈14nm+14nm>7nm是否真的可行

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉