SOC决定了一个智驾平台的硬件架构,甚至很大程度上会影响智驾平台的软件架构和算法体系。
本文主要介绍:
SOC的芯片架构,主要是AI处理器、CPU、MCU、GPU等基本原理和主流架构方案;
6个主流玩家(英伟达、特斯拉、高通、TI、地平线和华为)的Roadmap和主要产品;
自动驾驶SOC的技术发展趋势。
01
芯片架构
下图是特斯拉FSD和英伟达Xavier的内部架构图:
图片来源:HSBC Qianhai Securities
可以看出,一颗SOC里面通常集成了CPU、GPU、NPU、ISP、各种加速器以及外设单元。
这些处理单元通常具备不同的特点,分别负责不同的计算任务,一般的算力部署方案如下图所示:
图片来源:https://mp.weixin.qq.com/s/ECNNxux_AoGTu5ZJ2Aax7A
1. AI处理器
在AI计算中,需要执行大量的“乘加运算”(Multiply Accumulate, MAC)。大多数AI算法都是由许多这样的运算构成,它们在大数据集上往往形成树状结构。
AI处理器是用于机器学习算法的专用处理器,在运行机器学习算法时,处理速度远超一般的CPU和GPU。
例如下图中,CPU、GPU和特斯拉AI处理器(NNA)的处理速度对比:
图片来源:HSBC Qianhai Securities
环境感知模块一般是深度学习算力使用的大户,包括常见的各类图像、激光点云检测算法,比如物体检测、车道线检测、红绿灯识别等,都会涉及大量的神经网络的运算。此类模块通常使用高度定制化的AI处理器来实现。
AI处理器有很多不同的名称,例如Intel和AMD的NPU,地平线的BPU,Google的TPU,特斯拉的NNA等等。
图片来源:网络
AI处理器普遍以TOPS(Tera Operations Per Second)为单位,来评估深度学习的理论峰值算力。
深度学习算力理论值取决于运算精度、MAC运算单元的数量和运行频率。例如,假设芯片内有512个MAC运算单元,运行频率为1GHz,则INT8的理论算力 = 512 * 2 * 1GHz = 1TOPS,如果是FP16的算力为0.5TOPS,FP32的算力为0.25TOPS。
通常,各大芯片厂商宣传的算力往往是运算单元的理论最大值,而在实际使用过程中,实际的算力往往达不到该理论最大值,甚至有时可能只有理论值的50%,甚至更低。
“有效算力”主要受两方面的影响:
处理器的计算架构:深度学习加速器本身是高度定制化的计算架构,只有执行和加速器特性比较匹配的网络结构,才能发挥出较高的利用率。
存储带宽:存储带宽决定数据搬运的速度。如果存储带宽跟不上计算速度,则数据无法及时到达计算单元,导致处理器的计算单元空闲,从而降低处理器的算力利用率。
2. CPU
CPU通常用于复杂逻辑运算任务,例如,多传感器感知融合算法、决策规划算法等。
随着深度学习模型算力需求的增加,CPU也需要处理更多的传感器数据,以及更复杂的算法,因此对于CPU的算力需求也在逐渐提高。
通常采用KDMIPS(KiloDhrystone Million Instructions Per Second)来衡量CPU的算力。
CPU的内部架构示意如下,主要包括:Control(取指/分支预测/数据转发等)、ALU(逻辑运算)、Cache(高速缓存)和DRAM(存储单元)等。
CPU的常见架构有MIPS和ARM。其中最常见的是ARM架构,并且以Cortex A系列内核为主。
下图是ARM内核的Roadmap,其中最上面的绿色部分的A核为CPU常用内核,下面蓝色的R核和M核是MCU常用核心(见下一节)。
图片来源:ARM
不同Cortex A型号的CPU算力如下:
图片来源:焉知汽车
(以AE结尾的内核支持锁步,可支持实现ASIL-D功能安全等级)
Cortex A72内核架构如下:
图片来源:ARM
3. MCU
MCU主要用于故障诊断、安全校验以及车辆控制算法和安全相关信号交互。因此MCU的功能安全等级一般要达到ASIL D,常采用锁步核。
MCU可以是独立的器件(例如TC397),也可以集成在SOC里面(例如TDA4内置Cortex R5F)。如果是内置MCU方案,MCU的总线、接口和电源均要和其他处理单元做硬件隔离。
MCU有多种架构,例如英飞凌的TriCore、瑞萨的G3KH、ARM的R核或者M核(例如上图中的Cortex M7、Cortex R5F) 。
例如常见的Cortex R5F内核如下:
图片来源:ARM
4. GPU
GPU具有较强的浮点运算能力,通常用于图像的3D渲染和拼接等应用。一般采用TFLOPS(Tera Floating-Point Operations Per Second)来衡量GPU的浮点运算处理能力。
GPU的概念首先由英伟达提出,其结构和CPU有较大的不同,GPU的大部分晶体管被用于ALU,因此具备强大的并行计算能力。
CPU与GPU架构对比示意图:
图片来源:焉知汽车
对于GPU架构,比较常见的是英伟达和ARM的Mali系列。
英伟达的GPU架构Roadmap:
图片来源:CSDN,daijingxin
英伟达在2022年3月下旬,发布了采用全新Hopper架构的H100,拥有NVIDIA当前最强的GPU规格。下图为GH100 Streaming Multiprocessor (SM) :
图片来源:英伟达
ARM的GPU就是Mali系列,Mali系列GPU分为Utgard、Midgard、Bifrost、Valhall四个系列,性能逐渐提高。
图片来源:ARM
ARM GPU的Roadmap如下:
图片来源:ARM
5. SOC其他组件
除了上面处理单元之外,SOC一般还包括:
DSP:作为一种具有特殊结构的微处理器,相比于通用CPU,它更适用于计算密集度高的处理工作,例如,传统的CV图像处理、一些自定义算子的加速处理等。例如,TI的C7x DSP,除了支持常见的标量运算和矢量运算,还增加的矩阵乘加速器(MMA),进一步的提升了DSP的专用能力。
ISP:是视觉处理芯片,其主要功能是对摄像头输出的图像信号做调校,例如AE、AF、AWB、图像去噪等;
专用视觉加速器:有些视觉算法属于计算密集型(和深度学习类的算法不同),比如图像金字塔(Pyramid)、畸变矫正(Rectify)、局部特征提取、光流跟踪、图像编解码(Codec)等运算,一般采用专用的视觉加速器进行处理,实现低时延。
硬件安全模块HSM:用于为数据提供加解密服务,管理敏感信息和资产,实现信息安全的相关需求。
Encoder/Decoder编码器/解码器:用于图像信息的编解码。
RAM内存:SoC内部一般还会集成少量的存储器,例如SRAM和DRAM,不过更大容量的内存一般需要外扩DDR芯片。
外设:外部连接的设备和接口,例如MIPI CSI、PCIe、LVDS、USB、CAN、Ethernet、LIN、RS232、I2S、TDM、SPDIP、DP、HDMI等等;
02
SOC市场情况和主流SOC
1. SOC市场情况
根据ICV的数据,2022年全球智能驾驶SoC市场规模为32.95亿美元,中国市场规模达15.05亿美元,占全球的45.68%。
据测算,2024年,全球智能驾驶SoC市场规模有望突破100亿美元,到2027年预计达到283.06亿美元,年复合增长率高达43.11%。
据盖世汽车研究院统计数据显示,2023年,中国市场乘用车(不含进出口)前装标配智驾域控制器183.9万套,同比增长约70%,前装搭载率约为8.7%。
其中,中国市场域控制器SOC的出货量如下:
图片来源:盖世汽车
2. 主流SoC
主流自动驾驶SoC产品推出时间和性能,对比如下:
图片参考:中信证券
目前市场主要芯片参数,以及搭载车型和域控产品如下:
图片来源:智驾社
在中大算力市场,开放程度更高的SOC越来越受OEM欢迎。
随着自动驾驶重要性的提升,相当多OEM希望自研自动驾驶算法(甚至少量OEM自研SOC芯片),因此希望SOC芯片足够开放,尤其是自研能力较强的头部OEM。很多OEM将SOC由Mobileye的芯片,替换为了开放程度更高的英伟达、高通等芯片。
下图是HSBC在2022年统计的部分主要OEM所采用的自动驾驶SOC的变化趋势:
图片来源:HSBC Qianhai Securities
从目前情况来看:
在小算力市场(<30TOPS,轻量化行泊一体):TI TDA4VM和地平线J3目前份额较高;
在中算力市场(30~200TOPS,高速NOA):特斯拉FSD 1.0、英伟达Orin-N、TI TDA4VH等份额较高;
在大算力市场(>200TOPS,城市NOA):英伟达Orin-X、华为MDC、地平线J5份额较高;
03
英伟达
2016年,英伟达向OpenAI捐赠了他们的首台人工智能超级计算机DGX-1,DGX-1 被英伟达称作为「AI 超级计算机」,当时捐赠的版本价值 12.9 万美元。
DGX-1集成了 8 块 Tesla P100(Pascal 架构)GPU,整个系统的机器学习算力为 170 TFLOPS(FP16)。
图片来源:网络
2024年4月25日,黄仁勋给OpenAI赠送全球第一台 Nvidia DGX H200 超级计算机。
OpenAI联合创始人、总裁 Greg Brockman 发推,晒出了自己、OpenAI CEO 奥特曼与英伟达创始人兼 CEO 黄仁勋的合照。
图片来源:网络
DGX H200是2023年11月在全球超算大会上推出的最新产品。英伟达在官方博客中曾表示:H200 TensorCore GPU具有改变游戏规则的性能和内存功能,可增强生成式AI和高性能计算(HPC)工作负载。单块H200的FP16算力是1979 TFLOPS。
2024年6月19日, NVIDIA市值达到了3.34万亿美元,问鼎全球上市公司市值榜首。
图片来源:网络
英伟达近10年的股价走势:
图片来源:东方财富
1. Roadmap
自从2015年进入车载领域,到现在为止,英伟达先后推出了Tegra、Paker、Xavier、Orin等多款SoC芯片。当前,在智能驾驶大算力SoC芯片领域,Orin芯片的市场占有率在全球处于领先地位。
2022年,英伟达发布了用于舱驾一体的中央计算超大算力芯片Thor,计划在2025年量产。
图片来源:英伟达
图片来源:焉知汽车
2. Xavier
英伟达于2016年发布首款高级智能驾驶芯片Xavier,并于2020年实现量产。
使用CPU(8核ARM64架构)+GPU(Volta架构)+ASIC的混合技术路线,基于台积电12nm工艺,最高算力达30TOPS。
Xavier用于德赛西威IPU03域控制器上,搭载于小鹏P5、P7等车型。
基于Xavier的参考设计:
图片来源:英伟达
3. Orin
Orin于2019年发布,2022年量产。
图片来源:英伟达
Orin处理器架构:
图片来源:英伟达
Orin技术规格如下:
制程技术:7nm工艺,单个ORIN芯片集成了170亿个晶体管;
AI算力:254TOPS = CUDA Tensor Core GPU + DLA;
CPU:
12个ARM Cortex-A78AE (Hercules) ARM64;
4个R52 Lock-step Pairs;
GPU:NVIDIA Ampere架构的GPU,包含两个图形处理簇GPC,用于深度学习、图像处理和并行计算;
硬件加速器:
深度学习加速器Deep Learning Accelerators (DLA);
可编程视觉加速器Programmable Vision Accelerator (PVA);
光流加速器Optical Flow Accelerator (OFA);
AI推理能力:ORIN芯片特别强化了AI推理性能,能够执行复杂的神经网络模型;
带宽:205 GB/s;
功耗为45W;
不同版本配置对比
图片来源:网络
Orin-X和Orin-N的配置对比:
图片来源:英伟达
Orin-X的参考设计:
图片来源:英伟达
双ORIN方案:
图片来源:英伟达
4. Thor
Thor于2022年发布,预计2025年量产。
图片来源:英伟达
Thor是定位为舱驾一体的芯片:
图片来源:英伟达
技术规格如下:
4nm工艺制程,770亿个晶体管;
AI算力:2000 TFLOPS@FP8;
BlueField DPU。
Leverages Hopper GPU:Grace
Grace CPU
NVLINK-C2C
不同配置的Thor的芯片:
04
特斯拉
特斯拉是为数不多的自研自动驾驶SOC的主机厂。
目前已经量产了两代FSD产品。
1. 第一代FSD
第一代FSD于2019年4月正式发布,用于HW3.0。
图片来源:特斯拉
HW 3.0上使用了2片FSD芯片:
图片来源:特斯拉
主要参数:
工艺:三星14nm。
CPU:12个Cortex-A72 CPU核 ,分成3个集群,每个集群包含4个CPU核心,CPU的最大频率为2.2GHz。
NPU:特斯拉自研架构,设计了2个NNA核心,每个核心都可以执行8位整数计算,运行频率为2GHz,单个NNA的峰值算力为36.86TOPS,2个NNA的峰值算力为73.7TOPS。
GPU:1个Mali G71 MP12 GPU,运行频率为1GHz,600GFLOPS
其他:ISP、Video Encode。
面积:硅晶片260𝑚𝑚2,约60亿个晶体管。
芯片架构:
图片来源:网络
芯片版图:
图片来源:WikiChip
2. 第二代FSD
第二代FSD芯片自2023年2月开始在汽车上装备,用于HW4.0上。
图片来源:greentheonly
第二代FSD的设计与第一代非常相似:
图片来源:芯智讯
主要参数:
工艺:三星7nm制程,采用了三星Exynos-IP内核。Exynos-IP是三星基于ARM构架设计的自有IP,Exynos-IP设计非常超前,近似于ARM Cortex X系列的旗舰X3的设计。
CPU:20个CPU核(CPU架构未知 ) ,分成5个集群,每个集群包含4个CPU核心,CPU的最大频率为2.35GHz,低功耗时为1.37GHz。
NPU:3个NPU,工作频率为2.2GHz,算力121TOPS。
GPU:2个。
带宽:224GB/s。
3. 第三代FSD
Elon Musk在2024.6.21提到特斯拉的HW5,将被命名为AI5。
图片来源:网络
AI5算力大概是HW4.0的10倍,功耗整体提高4-5倍,2025年下半年推出。
HW4.0的算力是242TOPS,因此AI5的算力大概为2400TOPS。
AI5将搭载第三代FSD芯片,根据消息,该芯片将采用三星4nm工艺,估计仍然会采用三星Exynos-IP内核。
05
高通
2020年1月,高通发布自驾平台Snapdragon Ride,通过多个SA8540P SoC和AI加速器SA9000P组合的方案,提供30~700TOPS的算力,支持实现不同级别的自动驾驶功能。
图片来源:网络
2023年1月,高通发布第二代Snapdragon Ride芯片组,包括Mid、High、Premium三个级别,既能用于车内座舱,又可以实现辅助驾驶,算力最高可达2000TOPS。
图片来源:高通
1. RoadMap
高通自动驾驶和智能座舱芯片的Roadmap如下:
图片来源:高通
2. SA8540
SA8540主要用于高通第一代Snapdragon Ride平台,目前已经逐渐弃用。
3. SA8650
SA8650采用4nm工艺,有3个A、B、C三个配置:
SA8650是高通目前自动驾驶SOC的主打产品。
4. SA8620
AI算力为30-36TOPS,4nm,是SA8650的低配版本。
5. SA8775
SA8775是高通第一代舱驾一体SOC,可以认为是8155+8620的融合,可实现有限UNP+座舱功能。
芯片配置:
图片来源:网络
SA8775的主要参数:
CPU:两簇八核心设计,内核为Kryo 680 Gold Prime,最高运行频率都是2.35GHz。Kryo 680 Gold Prime基于ARM Cortex-X1而来的,算力为230kDMIPS,L3缓存4MB,L2缓存512kB;
GPU:内核为Adreno 663,算力为1.1-1.3TFLOPS;
安全岛:4核ARM Cortex-R52;
AI:高通V73架构,包含四个HVX矢量扩展,两个HMX矩阵扩展,最高频率1.5GHz,是基于DSP的架构,L2缓存1MB,还有紧耦合VCTM为8MB;
DSP:2个通用DSP,最高运行是1.708GHz,拥有1MB的L2缓存;
存储带宽:96比特,支持LPDDR5 3200MHz,约77GB/s;
从第三代开始,高通都采用模块出售,不再单独出售芯片,SA8775也是如此。
高通QAM模组示例如下:
图片来源:网络
搭载SA8775芯片的模块是QAM8775P,最大尺寸:65.0 mm×65.0 mm×4.55 mm,采用BGM1573B封装。模组中关键组件包括:SA8775P SoC、4个PMM8650AU电源管理IC、1个第三方电源管理IC和3个315ball LPDDR5 SDRAM(美光,容量合计可能是12GB)。
QAM8775P内部框架图:
图片来源:佐思汽车研究
6. SA8x97
SA8x97P是高通的第五代芯片,有3种配置。
基本性能参数如下:
性能最高的SA8797P-Pro/SA8397P-Pro的芯片架构如下:
图片来源:高通
SA8x97P芯片预计25年Q1 ES,26年Q1 QS ,26年Q2 PS。
06
德州仪器
TI在ADAS领域的产品线主要是TDA4系列,包括TDA4 VL、TDA4 VM和TDA4 VH不同的版本配置,以适配不同的市场定位需求。
TDA4 VL主攻前视一体机及入门级泊车控制器市场;
TDA4VM主攻轻量级多芯片SoC行泊一体或者单SoC分时复用行泊一体市场;
TDA4VH主攻轻量级单SoC全时运行行泊一体市场。
图片来源:焉知汽车
1. TDA4VM
TDA4VM的系统架构:
图片来源:TI
主要配置:
C7x 浮点矢量 DSP,性能高达 1.0GHz、 80GFLOPS、256GOPS。C7x是TI的一款高性能数字信号处理器,其中的浮点矢量 DSP 可以进行高效的信号处理、滤波和计算,大幅提高神经网络模型的计算效率。
深度学习矩阵乘法加速器 (MMA),性能高达8TOPS (8b)(频率为1.0GHz),可以高效地执行矩阵乘法和卷积等运算。
具有图像信号处理器(ISP)和多个视觉辅助加速器的视觉处理加速器(VPAC):可以高效地执行图像处理、计算机视觉和感知任务。
深度和运动处理加速器(DMPAC),执行深度计算和运动估计等任务。
双核 64 位 Arm® Cortex®-A72 微处理器子系统,2.0GHz。
六个 Arm® Cortex®-R5F MCU,1.0GHz
两个 C66x 浮点 DSP,性能高达 1.35GHz、 40GFLOPS、160GOPS,执行信号处理、滤波和计算任务。
3D GPU PowerVR® Rogue 8XE GE8430,750MHz、96GFLOPS、6Gpix/s,用于图形处理的硬件单元,可以实现高效的图形渲染和计算。
TDA4VH
TDA4VH是TDA4系列的旗舰产品,2023年2季度量产。
图片来源:TI
主要特征:
32TOPS的AI算力(4个MMA);
100K DMIPS的CPU算力(8个2.0GHz的Cortex-A72内核);
16K DMIPS的MCU算力(8个Cortex-R5F内核);
320 GFLOPS的DSP算力(4个C7X);
07
地平线
地平线SOC的产品矩阵如下:
图片来源:焉知汽车
1. BPU架构
BPU是由地平线提出的一种专门为人工智能应用设计的处理器架构,特别聚焦于深度神经网络的高效计算。BPU旨在解决传统处理器在处理大规模并行计算任务时的效率问题,特别是在图像识别、语音处理、自然语言理解和控制等领域。
图片来源:地平线
BPU设计的核心是为深度学习算法量身定制,通过优化的硬件加速器实现卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等复杂神经网络模型的快速计算。这使得在有限的功耗和成本下,能够达到更高的计算效率和性能。
图片来源:地平线
2. J3
2020年9月,地平线正式推出征程3芯片,伯努利2.0架构。
征程3采用台积电16nm制程工艺,典型功耗为2.5W,支持对 H.264 和 H.265 视频格式的高效编码。
CPU方面:
采用4个Arm Cortex A53内核,具有32KB/32KB L1 I/D核512KB 2级高速缓存;
最大工作频率为:1.2GHz;
支持动态频率缩放(DFS);
BPU方面:
由BPU0和BPU1双核伯努利架构组成,算力为5TOPS;
最大工作频率:950MHz;
支持动态频率缩放(DFS);
DRAM方面:
支持x32片外DDR4/LPDDR4/LPDDR4X DRAM,最大支持4GB容量;
支持的DDR4最大速度可达DDR4-3200 MT/s;
支持的LPDDR4/LPDDR4X 最大速度达3200MT/s;
3. J5
2021年7月,地平线推出征程5芯片。
采用16nm制程工艺,典型功耗为30W。
芯片架构:
图片来源:地平线
主要配置:
八核Cortex-A55 CPU;
2个可编程Vision P6 DSP。DSP可用于CV计算加速,同时可以用神经网络计算,支持SIMD和VLIW计算架构,提升计算效率,频率最高到650MHz。DSP可配置成256 8x8 MAC,总共达到0.67TOPS;
双核BPU,采用贝叶斯架构设计,可提供128TOPS的算力;
Optical flow processor:光流处理器;
2个ISP:
每个ISP模块可支持2x4k/8M@30fps图像处理;
支持多帧曝光宽动态 (HDR);
支持各种主流CFA(如:RGGB、RCCC、RGBIR 2x2、RCCB、RCCG和RYYCy等);
具备如下能力:黑电平补偿,缺陷像素检测与校正, 图像降噪,色差矫正,镜头矫正,去马赛克等;
4. J6
2024年4月24日,地平线在北京正式发布征程6系列芯片。
图片来源:地平线
预计2024年第四季度完成首批量产车型交付,并预计于2025年实现超10款车型量产交付。
J6采用第四代BPU架构“纳什”,专为大规模参数的Transformer模型和高级智能驾驶优化,一共有6个配置(B、L、E、M、H、P)。
图片来源:地平线
J6P是旗舰产品,主要特点:
晶体管数量:370亿;
AI算力:纳什架构第四代BPU,560TOPS(在1/2稀疏网络下的等效算力);
CPU:18核心的ARM Cortex-A78AE,算力是410K DMIPS;
GPU:200GFLOPS;
MCU:算力10K DMIPS;
存储带宽:支持LPDDR5,带宽:205GB/s;
图像带宽:5.3Gpixel/s,前视感知支持1800万像素;
高性能内部总线:TB/s级速度,访存延时低至130纳秒;
VPU:即矢量浮点运算加速单元,适用于新一代大模型Transformer较多的矢量运算;
J6P和特斯拉第一代FSD的部分指标对比:
图片来源:地平线发布会
08
华为
华为芯片Roadmap如下,目前用在自动驾驶域控制器上的SOC主要是Ascend 610:
图片来源:华为
1. 昇腾310
昇腾310处理器于2018年推出,主要用于推理场景,具有较高的能效比,主要用于MDC210、MDC300F域控制器上。
主要规格:
架构:自研达芬奇;
制程:12nm FFC;
算力:16TOPS(INT8),8TFLTOS(FP16);
带宽:最高16GB LPDDR4X@3200MHz;
16通道全高清视频解码器-H264/265;
1通道全高清视频编码器-H264/265;
功耗:8W;
2. 昇腾610
主要特点:
自研达芬奇架构,7nm制程;
AI算力:200 TOPS(INT8),100 TFLOPS(FP16);
ARM CPU算力:16核,220K DMIPs;
带宽:LPDDR5@6400MHz;
96*FHD Video decoder,24*FHD video encoder;
支持业界主流的AI框架,如Caffe、Tensorflow、Pytorch、ONNX,支持400个以上主流算子;
可配置的硬件加速器;
具有Vector Core,提供矢量加速和CPU的scalar运算单元紧耦合,加速控制和数据并行运算混合的程序段,有利于频繁递归的CV算法。
该芯片主要用于MDC610和MDC810域控制器中:
图片来源:华为
MDC 610域控制器的硬件架构,如图所示:
图片来源:网络
MDC610域控制器实物照片:
图片参考:混合动力之路,https://www.bilibili.com/video/BV17J4m1K7BA/
3. 昇腾910
昇腾910芯片在2019年推出,主要面向训练场景,性能可对标英伟达A100。
图片来源:https://xueqiu.com/4927163759/136970465
主要规格:
架构:自研达芬奇;
制程:7nm;
算力:640TOPS(INT8),320TFLOPS(FP16);
100G RoCE v2,PCIe Gen4*16;
128通道全高清视频解码器-H264/265;
功耗:350W;
09
SOC技术发展趋势
1. 算力提升和集成度提升
随着自动驾驶对算力的需求不断增加,SOC芯片算力在不断提高。
图片来源:Black Sesame estimates, HSBC Qianhai Securities
由于算力的提升,域控制器上SOC的数量在减少:
在中低算力平台,普遍由多SoC方案改为单SoC方案。
在高算力平台,由2~4颗SOC,改为1~2颗更大算力的SOC。
在舱驾融合架构中,有些厂家已经提出了单SOC方案(例如Thor)。
2. SoC适配新模型,架构不断迭代
目前主流的感知算法框架是BEV+ Transformer+ OCC,今年以来,端到端大模型又成为讨论的热点。
智驾算法不断地迭代升级,必将驱动智驾SoC芯片的技术架构不断地向前演进。
为了实现最佳的算法性能,SoC需要开发适配新模型的芯片架构、加速单元或者特定算子。例如:
英伟达的最新GPU架构Hopper,专门增加了Transformer引擎,为Transformer算法做了硬件优化,集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,从而加速AI计算的效率。
地平线的J6芯片在硬件上了做了大量的超越函数的优化工作,比如支持Layer-norm&Softmax算子的硬件加速,支持 Transpose&Reshape算子的硬件加速。
3. 优化通信带宽
数据在处理过程中需要不断地从存储器单元“读”数据到处理器单元中,处理完之后再将结果“写”回存储器单元。数据在存储器与处理器之间的频繁迁移将带来严重的传输功耗问题。
有业内人士提出,AI运算90%的功耗和延迟都是由于数据搬运产生的。
常见SOC芯片的带宽如下:
芯片型号 | 内存类型 | 内存位宽(bit) | 内存总带宽(GB/s) | |
英伟达 | Xavier | LPDDR4x | 256 | 137 |
Orin | LPDDR5 | 256 | 204.8 | |
特斯拉 | 第一代FSD | LPDDR4 | 128 | 34 |
第二代FSD | GDD R6 | 256(推测) | 448(推测) | |
地平线 | J5 | LPDDR4x | 64 | —— |
数据来源:网络
通信带宽是制约有效算力的关键因素,提升片内和片间通信带宽是SOC的重要设计方向。
1)地平线J6通过全新的存储系统设计,片上包括L0M、L1M、L2M共三级存储系统,通过先进的总线架构和高带宽的DDR,有效提升了内存带宽。
2)英伟达的NVLink是GPU和CPU之间的高速连接通道。第四代 NVLink 连接主机和加速处理器的速度高达每秒 900GB/s。
图片来源:英伟达
3)存算一体技术:
图片来源:https://zhuanlan.zhihu.com/p/522755103
另一个思路是,减少计算对于内存的访问量,例如,安霸CV3系列芯片采用了第三代CVflow架构,该架构将片上内存(On-chip Memory)分割成多个不同大小的内存块,用于存储计算的中间结果,从而显著减少对外部DRAM的访问次数。
10
结语
作为整个自动驾驶系统的核心,SOC的选型对于自动驾驶系统的性能、开发方式和成本影响巨大。
如何在众多的SoC芯片里面,选择一款合适的型号,是一门复杂的系统工程,不单需要考虑深度学习算力,还需要考虑CPU算力、内存带宽、安全、功耗和成本等。
“雪岭 · 自动驾驶”系列文章
(本篇)《雪岭 · 自动驾驶SOC》
本文内容仅代表个人观点,和真实情况有可能有偏差,仅供参考。如需要相关内容更详细的技术信息,欢迎添加“雪岭飞花”微信(maxhnnl)进一步交流,感谢。
参考资料:
焉知汽车,《焉知产研 | 车载SoC芯片产业分析报告》,https://mp.weixin.qq.com/s/Y8B66KsEBUaIGnFb_6lYDA
HSBC, Frank He, Auto semiconductors, July 2022
我是雪岭飞花,汽车行业24年开发经验,自动驾驶行业发展的见证者和参与者,自动驾驶感知和控制系统资深专家。
做有深度、高质量的技术分享,如果文章对您有帮助,欢迎关注、点赞和转发。如有疏漏或者错误,请批评指正。
如需加入自动驾驶专家微信群,和自动驾驶CEO/CTO、研发/产品总监、资深开发专家探讨交流,请联系“雪岭飞花”微信(maxhnnl),备注所在公司和从业方向。感谢~