探秘高通NPU，极致性价比与每瓦TOPS的AI加速器

汽车 2024-11-13 09:00 广东

欢迎关注下方公众号阿宝1990，本公众号专注于自动驾驶和智能座舱，每天给你一篇汽车干货，我们始于车，但不止于车。

高通8gen3的die shot

图片来源：网络

上图是高通8gen3的die shot，其die size为10.71*12.81=137.19平方毫米，其中左边中间部分的低功率AI系统就是NPU，也就是高通的V73 AI系统，与高通的第三代车载芯片SA8650/8775/8770/8255的AI系统是完全一样的，算力为整数8位精度下45TOPS。SA8650可能是两个NPU。NPU的面积大致是整个芯片的1/13，大致为10平方毫米，而英伟达的Orin，整个芯片die size大约是455平方毫米，其中AI部分至少占一半面积，也就是220平方毫米，是高通NPU的22倍，但性能不过是高通的5.6倍，刨除英伟达Orin因为三星8纳米工艺带来的低密度，也按台积电4纳米的密度，应该是110平方毫米左右，性价比也严重落后高通。而每瓦TOPS，英伟达Orin也明显落后高通。

高通NPU架构

图片来源：高通

图片来源：高通在2023年Hot Chips上的Presentation

前段Front-End异常简洁。

典型x86或ARM CPU微架构

图片来源：网络

上图是一个典型的x86或ARM架构的CPU的微架构，前端复杂程度远超VLIW之上。

前端核心是VLIW Bundle，VLIW，即超长指令字架构，是一种将多条独立指令打包成一条超长指令的并行处理技术。这种技术由美国计算机科学家Josh Fisher于1983年提出，并得到了业界的广泛关注。VLIW架构的核心思想在于，通过软件（编译器）的静态调度，将多条无依赖关系的指令组合成一个指令包（Instruction Bundle），然后同时发送给多个独立的功能部件进行并行执行。

在VLIW架构中，指令的执行过程大致可以分为以下几个步骤：

指令打包：编译器首先分析程序中的指令流，找出那些可以并行执行的独立指令，并将它们打包成一个超长的指令包。这个指令包包含了多个操作字段，每个字段对应于一个独立的功能部件。
指令分发：取指模块从指令存储器中取出这个指令包，并将其分发给各个独立的功能部件。每个功能部件根据指令包中的相应字段执行自己的操作。
并行执行：各个功能部件在接收到指令后，开始并行执行各自的操作。由于这些操作在指令包中已经被编译器确定为无依赖关系，因此它们可以互不干扰地同时执行。
结果汇总：当所有功能部件都完成自己的操作后，它们的执行结果被汇总起来，形成最终的输出。

VLIW是典型的指令并行架构，实际上目前CPU领域的超标量也可勉强算是指令并行架构，只不过VLIW要比超标量的并行效率高数倍乃至数十倍，不过本质上它还算CPU架构的一种。VLIW架构的性能很大程度上取决于编译器的优化能力。如果编译器无法准确地识别出程序中的并行执行机会，或者打包的指令包中存在依赖关系冲突，那么VLIW架构的性能将会受到严重影响。

超标量技术中哪些指令能够并行是由硬件，包括状态记录部件、指令调度部件来完成指令调度的，而VLIW则将这一权力赋予编译器，让编译器控制所有的功能单元。一个优秀的编译器会进行数据流分析，从而精准地确定可以在何处执行何种操作，控制寄存器、存储器的读取和写入。在流水线技术中会出现的冲突，VLIW都交给了编译器来解决，所以VLIW机器中的硬件结构通常比较简单，它只需要执行由编译器所编译的程序，而无需控制资源调度。但这样的结构导致的问题就是，一旦编译出错，CPU也没有能力发现其中的错误(例如执行顺序出错等)。另外虽然经过编译处理，但由于程序在动态执行时不可避免的转移等操作，超长指令字指令仍可能在并行执行时出现相关，导致指令复杂的情况下出现执行速度的损失。

VLIW优点有两个，一个是硬件非常简洁，没有复杂的高速缓存体系，没有复杂的指令暂存和分支预测系统，所占的die size非常小，性价比超高，效率超高。另一个是并行计算效率高，指令包一般是128位，是传统64位处理器的2倍并行效率。

V73架构

图片来源：高通

V73有四个标量执行单元，称其为四个核心也说得过去。矢量执行单元有6个，也可以说是6个核心。在最新的10月21日发布的8Elite芯片里，采用了更新的V79架构。标量单元增加到了8个。

高通8 Elite

图片来源：高通

高通NPU的数据流

注：高通最近增加了整数4位精度的支持

图片来源：高通

看起来似乎是串行架构，实际上所有的AI加速器都属于外设，它是没法独立工作的，必须依赖CPU调度配合，只不过英伟达的GPU太出名，以至于不明真相的人们都被误导了，以为GPU可以独立工作，不需要CPU了。

高通的这种VLIW是前端指令集架构，而整体上，高通还是DSP架构，也就是哈佛架构，不是传统冯诺依曼架构。DSP特殊的应用场景正好发挥了VLIW结构的优势，避开了它的短处。由于数字信号处理领域的算法比较单一稳定，同时是运算密集型程序，并不需要通用场景下的实时控制。并且其程序运行有严格的时间要求，cache这种不可控时间的结构就不适合了，通常采用固定周期的TCM（Tightly Coupled Memory，紧耦合内存）作为缓存，这样内存访问时间就固定了。有了上述的特征，VLIW静态编译在通用场合下面临的那些困难就不存在了，而其更高效的并行运算能力和简化的硬件结构被完全发挥出来。

图片来源：高通

高通的NPU里主体是VLIW，但是标量的ISA指令集依然存在，用它来控制数据流和串行计算任务调度，而这个标量计算采用SIMD（单指令多数据）的方式扩展，能够并行输入数据。标量、向量和张量都有线程定位的寄存器，寄存器的速度是最快的，比SRAM更快。

高通NPU的矢量处理单元

图片来源：高通

高通NPU的矢量处理单元，采用的是目前CPU领域常见的SIMD设计，1024位宽度，和GPU领域的SIMT设计差别很大。算力与SIMT比差距很大，但成本远低于SIMT，效率更高，大量的矢量计算还是得由GPU负责。

高通张量处理单元架构

图片来源：高通

张量处理单元采用空间三维布局，等效于16K的MAC阵列，如果频率是1Ghz，那么算力就是16000*1000*2=32TOPS。调整频率，就可以得到不同的算力，当然功耗也不同。V73最高可以是1.5GHz，也就是48TOPS，最低可以是0.3125GHz，也就是10TOPS。

高通NPU的存储模式

图片来源：高通

高通NPU的存储模式，张量单元完全使用TCM（Tightly Coupled Memory，紧耦合内存），因为它不需要存储中间值。标量单元还是使用传统的L2指令缓存和L1数据缓存。

高通的NPU取得了极致性价比和每瓦TOPS，主要是VLIW和DSP架构配合得好，缺点是缺乏灵活性，VLIW的指令集是静态编译，写进硬件里，每出现一种新算法，就须要添加对应的编译，硬件部分须要频繁修改，这意味着其生命周期不长，须要频繁升级，因此其版本特别多，目前有V4, V5, V55, V60, V61, V62, V65, V66, V67, V67t, V68, V69, V71, V73, V75, V77, V79，其中V66是高通SA8155的AI架构，V68是高通SA8295的AI架构，V73是SA8255的AI架构，V79是Elite Cockpit的AI架构，基本上每半年就须要升级一次。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

一群志同道合的朋友齐聚知识星球

加入《阿宝说车》知识星球，可获得这些模块的相关学习资料（目前有研究报告，线上大咖分享、线下闭门会），包括16大板块，详细清单如下：

http://mp.weixin.qq.com/s?__biz=MzIyMzE2MTQxMQ==&mid=2648422553&idx=1&sn=65729b9172ac7c7cc8ba15e385d567a8

阿宝1990

本公众号专注于自动驾驶和智能座舱，每天给你一篇汽车干货，我们始于车，但不止于车。

最新文章

大众安徽ID.系列即将放弃MEB平台采用小鹏架构

科普 | CAN协议之从ISO11898到电路板

从挂挡到驱动，电动汽车是怎么跑起来的？

小鹏汽车剑指L4自动驾驶，AI 汽车时代到来？

车载环视摄像头行业仍有进入机会？

3 小时 3 万大定，小鹏 P7+ 做对了什么？

车企自建充电站大比拼：蔚来第一存疑，小鹏理想极氪猛追

汽车动力性试验：爬坡试验综述

主机厂网络安全风险评估策略分析——以智己、长安、江铃为例

一群志同道合的朋友齐聚知识星球

四轮转向与自动驾驶到底要怎样打好配合战？

扎根北京亦庄，立志做全球领先的汽车半导体公司 |「亦庄自动驾驶新引力」系列采访：芯驰科技

黑芝麻智能在智驾芯片领域发展如何了？

探秘高通NPU，极致性价比与每瓦TOPS的AI加速器

一群志同道合的朋友齐聚知识星球

超120亿！一汽车零部件项目落地苏州！

特朗普当选，我国将发债超10万亿？

工业软件的未来，方向在哪里？

自动驾驶中一直说的BEV+Transformer到底是个啥？

一群志同道合的朋友齐聚知识星球

测试用例编写规范

信号链市场，大有可为

比亚迪海洋网，还能玩出什么新花样？

大众PEP开发流程详解

一群志同道合的朋友齐聚知识星球

Model 2再缺席，FSD入华仍有变数，特斯拉2025猜想 | 智车星球

汽车试验场较为严苛的五大汽车测试项目汇总

阿维塔攻入比亚迪真空地带

定制一个车规级ECU要多少开发费?

跟保时捷汽车产品日 - 学定义汽车产品

“基建狂魔”理想汽车

这三个月，廉价电动车卖得有多爽？

端到端、大模型都和算力无关

国内存储器龙头厂商对比分析——江波龙VS佰维存储

滴滴没有做成的事，这个新玩家要挑战一下

懂车帝30款热门车型“极限碰撞测试”，A、B柱断了很多！

高通SA8650方案揭秘：最高性价比与最高集成度

燃动鹏城！AWC 2024开幕首日智能网联汽车行业巨头齐聚，探索未来出行新风向！

智能网联汽车车载服务生态的架构规划与发展建议

2024新能源大厂薪酬待遇一览！

理想 vs 问界，决战新势力之巅

车载支付及ETC研究：车载支付的三大应用场景分析

一群志同道合的朋友齐聚知识星球

突发！某智能汽车被黑客远程控制开锁即走

为什么自动驾驶中全球导航卫星系统如此重要？

AI耳机爆发！揭秘7倍增长背后的潜力和趋势

介绍一种高效的智驾系统Mono 3D 目标检测方法

一群志同道合的朋友齐聚知识星球

小米汽车被上汽嫌弃：抄袭！

中国电动汽车出海欧洲 - 关税加征首月销量下跌明显，瓶颈期还是滑铁卢？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉