高通正式推出第四代车载芯片,3纳米,AI算力120TOPS

汽车   2024-11-01 09:01   广东  

欢迎关注下方公众号阿宝1990,本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。



美国东部时间10月21日,高通召开骁龙2024高峰会,每年10月底或11月,高通都会召开高峰会发布新一代手机旗舰产品。2024年与众不同,除了发布手机旗舰芯片8 Elite外,高通还发布了第四代车载芯片骁龙Cockpit Elite和骁龙Ride Elite,三者基于同样的平台。


图片来源:高通


高通第三代车载芯片包括SA8255/8775/8650/8770/8620,除了AI部分有些差异,其余大部分均完全相同。尽管性能不次于第三代芯片,但高通的SA8295则属于2.5代产品,其AI部分是V68,而第三代车载芯片的AI部分核心是V73架构。第三代车载芯片和手机用的骁龙8Gen3高度雷同,而SA8295则是源自笔记本电脑领域的8cx Gen3。第四代高通改了命名规则,8Gen4改为8 Elite,全称是Mobile 8 Elite,型号是SM8750。第四代车载就是骁龙Cockpit Elite和骁龙Ride Elite,看名字就知道它们基于相同的平台。


第四代与第三代最大不同就是CPU方面高通彻底抛弃了ARM架构,专用自己研发的全新架构,这就是Oryon。高通第一代Oryon首先用在高通X Elite上,这是高通寄予厚望的进军笔记本电脑的CPU芯片,但因ARM架构针对X86平台设计的软件兼容性不强,性能差强人意,最终高通在这个月停止销售X Elite PC开发套件。


我们将联发科刚刚发布的3纳米车载芯片与高通的做个对比。高通目前没有公布车载芯片的任何细节,但手机领域的8 Elite有不少参数已经公开,与车载平台应该相差无几。


整理:佐思汽研


图片来源:高通


上图是高通对第四代车载芯片的介绍,与第三代比CPU有三倍提升,这个第三代有多款芯片,高通只是含糊地说和第三代比,但是没说和哪一款芯片比,如果是和SA8255比,那CPU算力高达690K DMIPS,比英伟达的Thor-X的CPU算力都高,要是和CPU算力最低的SA8620比,三倍就是240k DMIPS,又显得太低。GPU方面倒是基本吻合,第三代的GPU算力大约是1.1-1.3TFLOPS之间,三倍就是3.9TFLOPS。这个也比较容易,2.5代的SA8295的GPU算力就有3.0TFLOPS了。AI方面,高通说有12倍的提升,第三代车载芯片的NPU算力在10-100TOPS之间,SA8255最低版本的NPU算力仅10TOPS,SA8650则有100TOPS,即便按最低的10TOPS算,第四代车载芯片的NPU算力有120TOPS,按第三代车载芯片主流的36TOPS算,12倍的算力就有432TOPS,感觉太高了,已经远超英伟达Orin。


图片来源:高通


和第四代车载芯片同平台的8 Elite其NPU性能明确指出是比上一代高出45%,8 Elite的上一代自然是8Gen3,https://www.forbes.com/sites/moorinsights/2023/10/25/ai-dominates-qualcomm-snapdragon-summit-with-new-snapdragon-products/,根据高通在去年高峰会上的说法,8Gen3的NPU算力是45TOPS,那么8 Elite的NPU算力是65TOPS。如果和SA8650那样有两个NPU,即两个HTP,张量处理器,算力是130TOPS,这个数据才显得比较合理。


不过大模型时代,存储带宽远比TOPS算力重要。高通也知道这一点。


图片来源:高通


高通X Elite的内存带宽是136GB/s。https://www.qualcomm.com/content/dam/qcomm-martech/dm-assets/documents/Unlocking-on-device-generative-AI-with-an-NPU-and-heterogeneous-computing.pdf,在这份文件里,高通有这样一段话,Accordingly, our NPU has been refined over generations and across many learnings to remove bottlenecks. For example, many of the architecture upgrades in the NPU for Snapdragon 8 Gen 3 help with accelerating large generative AI models. Memory bandwidth is the bottleneck for LLM token generation, which means that performance is limited by memory bandwidth rather than processing. We subsequently focused on memory bandwidth efficiency. Snapdragon 8 Gen 3 also supports one of the industry’s fastest memory configurations, LPDDR5x at 4.8GHz and 77GB/s, to address rising memory demands for generative AI use cases.


高通说了内存带宽是大模型的瓶颈,然后说8 gen3的内存配置是最快的,有77GB/s,实际上在手机里确实是最快,但放在车载领域,就不算快了。2019的英伟达确定Orin的设计范围时,就已经确定了204.8GB/s的带宽,特斯拉的第二代FSD至少是384GB/s带宽,而英伟达的Thor是273-546GB/s带宽。


矩阵乘向量操作是明显的访存 bound,而这种操作是 LLM 推理中最主要的部分,这也就导致 LLM 推理是访存 bound 类型。


三星对GPT大模型workload分析

图片来源:三星


上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV,GEMM所占只有2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。


三星对GPU利用率的分析

图片来源:三星


上图是三星对GPU利用率的分析,可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。还有如矩阵反转,严格地说没有任何运算,只是存储行列对调,完全是存储器和CPU在忙活。


既然知道瓶颈是存储带宽,为什么高通不把带宽做高一点,有技术难度吗?当然没有,主要还是成本。对芯片来说,刨除工程成本和研发成本,纯晶圆成本就是die size面积大小,面积越大,成本越高,而存储带宽非常耗费die size,换句话说,存储带宽非常消耗成本。

存储带宽=存储芯片频率x芯片存储位宽。存储芯片频率由芯片支持的存储类型确定。


车载领域存储比算力重要很多,最好的解决办法是HBM,HBM的位宽可以做到5120bit,而传统的LPDDR一般不超过256bit,大部分都是64bit,但HBM太贵了,32GB HBM2最低成本也得2000美元,汽车领域对价格还是比较敏感的,退而求其次,就是GDDR了。GDDR6的成本远低于HBM,32GB GDDR6大概只要180美元或更低。


几代GDDR的性能对比

整理:佐思汽研


基本上GDDR6的理论上限就是672GB/s,特斯拉第二代FSD芯片就支持第一代GDDR6,HW4.0上的GDDR6容量为32GB,型号为MT61M512M32KPA-14,频率1750MHz(LPDDR5最低也是3200MHz之上),是第一代GDDR6,速度较低。即使用了GDDR6,要流畅运行百亿级别的大模型,还是无法实现,不过已经是目前最好的了。


苹果M3系列芯片的die shot

图片来源:网络


上面是苹果M3系列芯片的die shot,M3 MAX的位宽是512bit,所占的die size远比128bit要多的多。一般手机都是64bit,远远低于苹果的M3。


高通8 Gen3的die shot

图片来源:网络


上图是高通8 Gen3的die shot,LPDDR5存储控制器部分在右侧靠下,所占die size很小。


高通第四代车载芯片是否还能独占高端市场特别是座舱市场,让我们拭目以待吧。


免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。


一群志同道合的朋友齐聚知识星


加入《阿宝说车》知识星球,可获得这些模块的相关学习资料(目前有研究报告,线上大咖分享、线下闭门会),包括16大板块,详细清单如下:


阿宝1990
本公众号专注于自动驾驶和智能座舱,每天给你一篇汽车干货,我们始于车,但不止于车。
 最新文章