雪岭 · 自动驾驶SOC——芯片架构、6个主要玩家Roadmap和产品、技术趋势（1.2万字概览）

科技科技 2024-07-04 00:36 上海

Intel芯片版图，图片来源：cpumuseum

自动驾驶系统的核心是域控制器，域控制器的核心是SOC。

SOC决定了一个智驾平台的硬件架构，甚至很大程度上会影响智驾平台的软件架构和算法体系。

本文主要介绍：

SOC的芯片架构，主要是AI处理器、CPU、MCU、GPU等基本原理和主流架构方案；
6个主流玩家（英伟达、特斯拉、高通、TI、地平线和华为）的Roadmap和主要产品；
自动驾驶SOC的技术发展趋势。

01 芯片架构

下图是特斯拉FSD和英伟达Xavier的内部架构图：

图片来源：HSBC Qianhai Securities

可以看出，一颗SOC里面通常集成了CPU、GPU、NPU、ISP、各种加速器以及外设单元。

这些处理单元通常具备不同的特点，分别负责不同的计算任务，一般的算力部署方案如下图所示：

图片来源：https://mp.weixin.qq.com/s/ECNNxux_AoGTu5ZJ2Aax7A

1. AI处理器

在AI计算中，需要执行大量的“乘加运算”（Multiply Accumulate, MAC）。大多数AI算法都是由许多这样的运算构成，它们在大数据集上往往形成树状结构。

AI处理器是用于机器学习算法的专用处理器，在运行机器学习算法时，处理速度远超一般的CPU和GPU。

例如下图中，CPU、GPU和特斯拉AI处理器（NNA）的处理速度对比：

图片来源：HSBC Qianhai Securities

环境感知模块一般是深度学习算力使用的大户，包括常见的各类图像、激光点云检测算法，比如物体检测、车道线检测、红绿灯识别等，都会涉及大量的神经网络的运算。此类模块通常使用高度定制化的AI处理器来实现。

AI处理器有很多不同的名称，例如Intel和AMD的NPU，地平线的BPU，Google的TPU，特斯拉的NNA等等。

图片来源：网络

AI处理器普遍以TOPS（Tera Operations Per Second）为单位，来评估深度学习的理论峰值算力。

深度学习算力理论值取决于运算精度、MAC运算单元的数量和运行频率。例如，假设芯片内有512个MAC运算单元，运行频率为1GHz，则INT8的理论算力 = 512 * 2 * 1GHz = 1TOPS，如果是FP16的算力为0.5TOPS，FP32的算力为0.25TOPS。

通常，各大芯片厂商宣传的算力往往是运算单元的理论最大值，而在实际使用过程中，实际的算力往往达不到该理论最大值，甚至有时可能只有理论值的50%，甚至更低。

“有效算力”主要受两方面的影响：

处理器的计算架构：深度学习加速器本身是高度定制化的计算架构，只有执行和加速器特性比较匹配的网络结构，才能发挥出较高的利用率。
存储带宽：存储带宽决定数据搬运的速度。如果存储带宽跟不上计算速度，则数据无法及时到达计算单元，导致处理器的计算单元空闲，从而降低处理器的算力利用率。

2. CPU

CPU通常用于复杂逻辑运算任务，例如，多传感器感知融合算法、决策规划算法等。

随着深度学习模型算力需求的增加，CPU也需要处理更多的传感器数据，以及更复杂的算法，因此对于CPU的算力需求也在逐渐提高。

通常采用KDMIPS（KiloDhrystone Million Instructions Per Second）来衡量CPU的算力。

CPU的内部架构示意如下，主要包括：Control（取指/分支预测/数据转发等）、ALU（逻辑运算）、Cache（高速缓存）和DRAM（存储单元）等。

CPU的常见架构有MIPS和ARM。其中最常见的是ARM架构，并且以Cortex A系列内核为主。

下图是ARM内核的Roadmap，其中最上面的绿色部分的A核为CPU常用内核，下面蓝色的R核和M核是MCU常用核心（见下一节）。

图片来源：ARM

不同Cortex A型号的CPU算力如下：

图片来源：焉知汽车

（以AE结尾的内核支持锁步，可支持实现ASIL-D功能安全等级）

Cortex A72内核架构如下：

图片来源：ARM

3. MCU

MCU主要用于故障诊断、安全校验以及车辆控制算法和安全相关信号交互。因此MCU的功能安全等级一般要达到ASIL D，常采用锁步核。

MCU可以是独立的器件（例如TC397），也可以集成在SOC里面（例如TDA4内置Cortex R5F）。如果是内置MCU方案，MCU的总线、接口和电源均要和其他处理单元做硬件隔离。

MCU有多种架构，例如英飞凌的TriCore、瑞萨的G3KH、ARM的R核或者M核（例如上图中的Cortex M7、Cortex R5F）。

例如常见的Cortex R5F内核如下：

图片来源：ARM

4. GPU

GPU具有较强的浮点运算能力，通常用于图像的3D渲染和拼接等应用。一般采用TFLOPS（Tera Floating-Point Operations Per Second）来衡量GPU的浮点运算处理能力。

GPU的概念首先由英伟达提出，其结构和CPU有较大的不同，GPU的大部分晶体管被用于ALU，因此具备强大的并行计算能力。

CPU与GPU架构对比示意图：

图片来源：焉知汽车

对于GPU架构，比较常见的是英伟达和ARM的Mali系列。

英伟达的GPU架构Roadmap：

图片来源：CSDN，daijingxin

英伟达在2022年3月下旬，发布了采用全新Hopper架构的H100，拥有NVIDIA当前最强的GPU规格。下图为GH100 Streaming Multiprocessor (SM) ：

图片来源：英伟达

ARM的GPU就是Mali系列，Mali系列GPU分为Utgard、Midgard、Bifrost、Valhall四个系列，性能逐渐提高。

图片来源：ARM

ARM GPU的Roadmap如下：

图片来源：ARM

5. SOC其他组件

除了上面处理单元之外，SOC一般还包括：

DSP：作为一种具有特殊结构的微处理器，相比于通用CPU，它更适用于计算密集度高的处理工作，例如，传统的CV图像处理、一些自定义算子的加速处理等。例如，TI的C7x DSP，除了支持常见的标量运算和矢量运算，还增加的矩阵乘加速器（MMA），进一步的提升了DSP的专用能力。
ISP：是视觉处理芯片，其主要功能是对摄像头输出的图像信号做调校，例如AE、AF、AWB、图像去噪等；
专用视觉加速器：有些视觉算法属于计算密集型（和深度学习类的算法不同），比如图像金字塔（Pyramid）、畸变矫正（Rectify）、局部特征提取、光流跟踪、图像编解码（Codec）等运算，一般采用专用的视觉加速器进行处理，实现低时延。
硬件安全模块HSM：用于为数据提供加解密服务，管理敏感信息和资产，实现信息安全的相关需求。
Encoder/Decoder编码器/解码器：用于图像信息的编解码。
RAM内存：SoC内部一般还会集成少量的存储器，例如SRAM和DRAM，不过更大容量的内存一般需要外扩DDR芯片。
外设：外部连接的设备和接口，例如MIPI CSI、PCIe、LVDS、USB、CAN、Ethernet、LIN、RS232、I2S、TDM、SPDIP、DP、HDMI等等；

02 SOC市场情况和主流SOC

1. SOC市场情况

根据ICV的数据，2022年全球智能驾驶SoC市场规模为32.95亿美元，中国市场规模达15.05亿美元，占全球的45.68%。

据测算，2024年，全球智能驾驶SoC市场规模有望突破100亿美元，到2027年预计达到283.06亿美元，年复合增长率高达43.11%。

据盖世汽车研究院统计数据显示，2023年，中国市场乘用车（不含进出口）前装标配智驾域控制器183.9万套，同比增长约70%，前装搭载率约为8.7%。

其中，中国市场域控制器SOC的出货量如下：

图片来源：盖世汽车

2. 主流SoC

主流自动驾驶SoC产品推出时间和性能，对比如下：

图片参考：中信证券

目前市场主要芯片参数，以及搭载车型和域控产品如下：

图片来源：智驾社

在中大算力市场，开放程度更高的SOC越来越受OEM欢迎。

随着自动驾驶重要性的提升，相当多OEM希望自研自动驾驶算法（甚至少量OEM自研SOC芯片），因此希望SOC芯片足够开放，尤其是自研能力较强的头部OEM。很多OEM将SOC由Mobileye的芯片，替换为了开放程度更高的英伟达、高通等芯片。

下图是HSBC在2022年统计的部分主要OEM所采用的自动驾驶SOC的变化趋势：

图片来源：HSBC Qianhai Securities

从目前情况来看：

在小算力市场（<30TOPS，轻量化行泊一体）：TI TDA4VM和地平线J3目前份额较高；
在中算力市场（30~200TOPS，高速NOA）：特斯拉FSD 1.0、英伟达Orin-N、TI TDA4VH等份额较高；
在大算力市场（>200TOPS，城市NOA）：英伟达Orin-X、华为MDC、地平线J5份额较高；

03 英伟达

2016年，英伟达向OpenAI捐赠了他们的首台人工智能超级计算机DGX-1，DGX-1 被英伟达称作为「AI 超级计算机」，当时捐赠的版本价值 12.9 万美元。

DGX-1集成了 8 块 Tesla P100（Pascal 架构）GPU，整个系统的机器学习算力为 170 TFLOPS（FP16）。

图片来源：网络

2024年4月25日，黄仁勋给OpenAI赠送全球第一台 Nvidia DGX H200 超级计算机。

OpenAI联合创始人、总裁 Greg Brockman 发推，晒出了自己、OpenAI CEO 奥特曼与英伟达创始人兼 CEO 黄仁勋的合照。

图片来源：网络

DGX H200是2023年11月在全球超算大会上推出的最新产品。英伟达在官方博客中曾表示：H200 TensorCore GPU具有改变游戏规则的性能和内存功能，可增强生成式AI和高性能计算(HPC)工作负载。单块H200的FP16算力是1979 TFLOPS。

2024年6月19日， NVIDIA市值达到了3.34万亿美元，问鼎全球上市公司市值榜首。

图片来源：网络

英伟达近10年的股价走势：

图片来源：东方财富

1. Roadmap

自从2015年进入车载领域，到现在为止，英伟达先后推出了Tegra、Paker、Xavier、Orin等多款SoC芯片。当前，在智能驾驶大算力SoC芯片领域，Orin芯片的市场占有率在全球处于领先地位。

2022年，英伟达发布了用于舱驾一体的中央计算超大算力芯片Thor，计划在2025年量产。

图片来源：英伟达

图片来源：焉知汽车

2. Xavier

英伟达于2016年发布首款高级智能驾驶芯片Xavier，并于2020年实现量产。

使用CPU（8核ARM64架构）+GPU（Volta架构）+ASIC的混合技术路线，基于台积电12nm工艺，最高算力达30TOPS。

Xavier用于德赛西威IPU03域控制器上，搭载于小鹏P5、P7等车型。

基于Xavier的参考设计：

图片来源：英伟达

3. Orin

Orin于2019年发布，2022年量产。

图片来源：英伟达

Orin处理器架构：

图片来源：英伟达

Orin技术规格如下：

制程技术：7nm工艺，单个ORIN芯片集成了170亿个晶体管；
AI算力：254TOPS = CUDA Tensor Core GPU + DLA；
CPU：

12个ARM Cortex-A78AE (Hercules) ARM64；
4个R52 Lock-step Pairs；

GPU：NVIDIA Ampere架构的GPU，包含两个图形处理簇GPC，用于深度学习、图像处理和并行计算；

硬件加速器：

深度学习加速器Deep Learning Accelerators (DLA)；
可编程视觉加速器Programmable Vision Accelerator (PVA)；
光流加速器Optical Flow Accelerator (OFA)；

AI推理能力：ORIN芯片特别强化了AI推理性能，能够执行复杂的神经网络模型；

带宽：205 GB/s；

功耗为45W；

不同版本配置对比

图片来源：网络

Orin-X和Orin-N的配置对比：

图片来源：英伟达

Orin-X的参考设计：

图片来源：英伟达

双ORIN方案：

图片来源：英伟达

4. Thor

Thor于2022年发布，预计2025年量产。

图片来源：英伟达

Thor是定位为舱驾一体的芯片：

图片来源：英伟达

技术规格如下：

4nm工艺制程，770亿个晶体管；
AI算力：2000 TFLOPS@FP8；
BlueField DPU。
Leverages Hopper GPU：Grace
Grace CPU
NVLINK-C2C

不同配置的Thor的芯片：

04 特斯拉

特斯拉是为数不多的自研自动驾驶SOC的主机厂。

目前已经量产了两代FSD产品。

1. 第一代FSD

第一代FSD于2019年4月正式发布，用于HW3.0。

图片来源：特斯拉

HW 3.0上使用了2片FSD芯片：

图片来源：特斯拉

主要参数：

工艺：三星14nm。
CPU：12个Cortex-A72 CPU核，分成3个集群，每个集群包含4个CPU核心，CPU的最大频率为2.2GHz。
NPU：特斯拉自研架构，设计了2个NNA核心，每个核心都可以执行8位整数计算，运行频率为2GHz，单个NNA的峰值算力为36.86TOPS，2个NNA的峰值算力为73.7TOPS。
GPU：1个Mali G71 MP12 GPU，运行频率为1GHz，600GFLOPS
其他：ISP、Video Encode。
面积：硅晶片260𝑚𝑚2，约60亿个晶体管。

芯片架构：

图片来源：网络

芯片版图：

图片来源：WikiChip

2. 第二代FSD

第二代FSD芯片自2023年2月开始在汽车上装备，用于HW4.0上。

图片来源：greentheonly

第二代FSD的设计与第一代非常相似：

图片来源：芯智讯

主要参数：

工艺：三星7nm制程，采用了三星Exynos-IP内核。Exynos-IP是三星基于ARM构架设计的自有IP，Exynos-IP设计非常超前，近似于ARM Cortex X系列的旗舰X3的设计。
CPU：20个CPU核（CPU架构未知），分成5个集群，每个集群包含4个CPU核心，CPU的最大频率为2.35GHz，低功耗时为1.37GHz。
NPU：3个NPU，工作频率为2.2GHz，算力121TOPS。
GPU：2个。
带宽：224GB/s。

3. 第三代FSD

Elon Musk在2024.6.21提到特斯拉的HW5，将被命名为AI5。

图片来源：网络

AI5算力大概是HW4.0的10倍，功耗整体提高4-5倍，2025年下半年推出。

HW4.0的算力是242TOPS，因此AI5的算力大概为2400TOPS。

AI5将搭载第三代FSD芯片，根据消息，该芯片将采用三星4nm工艺，估计仍然会采用三星Exynos-IP内核。

05 高通

2020年1月，高通发布自驾平台Snapdragon Ride，通过多个SA8540P SoC和AI加速器SA9000P组合的方案，提供30~700TOPS的算力，支持实现不同级别的自动驾驶功能。

图片来源：网络

2023年1月，高通发布第二代Snapdragon Ride芯片组，包括Mid、High、Premium三个级别，既能用于车内座舱，又可以实现辅助驾驶，算力最高可达2000TOPS。

图片来源：高通

1. RoadMap

高通自动驾驶和智能座舱芯片的Roadmap如下：

图片来源：高通

2. SA8540

SA8540主要用于高通第一代Snapdragon Ride平台，目前已经逐渐弃用。

3. SA8650

SA8650采用4nm工艺，有3个A、B、C三个配置：

SA8650是高通目前自动驾驶SOC的主打产品。

4. SA8620

AI算力为30-36TOPS，4nm，是SA8650的低配版本。

5. SA8775

SA8775是高通第一代舱驾一体SOC，可以认为是8155+8620的融合，可实现有限UNP+座舱功能。

芯片配置：

图片来源：网络

SA8775的主要参数：

CPU：两簇八核心设计，内核为Kryo 680 Gold Prime，最高运行频率都是2.35GHz。Kryo 680 Gold Prime基于ARM Cortex-X1而来的，算力为230kDMIPS，L3缓存4MB，L2缓存512kB；
GPU：内核为Adreno 663，算力为1.1-1.3TFLOPS；
安全岛：4核ARM Cortex-R52；
AI：高通V73架构，包含四个HVX矢量扩展，两个HMX矩阵扩展，最高频率1.5GHz，是基于DSP的架构，L2缓存1MB，还有紧耦合VCTM为8MB；
DSP：2个通用DSP，最高运行是1.708GHz，拥有1MB的L2缓存；
存储带宽：96比特，支持LPDDR5 3200MHz，约77GB/s；

从第三代开始，高通都采用模块出售，不再单独出售芯片，SA8775也是如此。

高通QAM模组示例如下：

图片来源：网络

搭载SA8775芯片的模块是QAM8775P，最大尺寸：65.0 mm×65.0 mm×4.55 mm，采用BGM1573B封装。模组中关键组件包括：SA8775P SoC、4个PMM8650AU电源管理IC、1个第三方电源管理IC和3个315ball LPDDR5 SDRAM（美光，容量合计可能是12GB）。

QAM8775P内部框架图：

图片来源：佐思汽车研究

6. SA8x97

SA8x97P是高通的第五代芯片，有3种配置。

基本性能参数如下：

性能最高的SA8797P-Pro/SA8397P-Pro的芯片架构如下：

图片来源：高通

SA8x97P芯片预计25年Q1 ES，26年Q1 QS ，26年Q2 PS。

06 德州仪器

TI在ADAS领域的产品线主要是TDA4系列，包括TDA4 VL、TDA4 VM和TDA4 VH不同的版本配置，以适配不同的市场定位需求。

TDA4 VL主攻前视一体机及入门级泊车控制器市场；
TDA4VM主攻轻量级多芯片SoC行泊一体或者单SoC分时复用行泊一体市场；
TDA4VH主攻轻量级单SoC全时运行行泊一体市场。

图片来源：焉知汽车

1. TDA4VM

TDA4VM的系统架构：

图片来源：TI

主要配置：

C7x 浮点矢量 DSP，性能高达 1.0GHz、 80GFLOPS、256GOPS。C7x是TI的一款高性能数字信号处理器，其中的浮点矢量 DSP 可以进行高效的信号处理、滤波和计算，大幅提高神经网络模型的计算效率。
深度学习矩阵乘法加速器 (MMA)，性能高达8TOPS (8b)（频率为1.0GHz），可以高效地执行矩阵乘法和卷积等运算。
具有图像信号处理器(ISP)和多个视觉辅助加速器的视觉处理加速器（VPAC）：可以高效地执行图像处理、计算机视觉和感知任务。
深度和运动处理加速器（DMPAC），执行深度计算和运动估计等任务。
双核 64 位 Arm® Cortex®-A72 微处理器子系统，2.0GHz。
六个 Arm® Cortex®-R5F MCU，1.0GHz
两个 C66x 浮点 DSP，性能高达 1.35GHz、 40GFLOPS、160GOPS，执行信号处理、滤波和计算任务。
3D GPU PowerVR® Rogue 8XE GE8430，750MHz、96GFLOPS、6Gpix/s，用于图形处理的硬件单元，可以实现高效的图形渲染和计算。

TDA4VH

TDA4VH是TDA4系列的旗舰产品，2023年2季度量产。

图片来源：TI

主要特征：

32TOPS的AI算力（4个MMA）；
100K DMIPS的CPU算力（8个2.0GHz的Cortex-A72内核）；
16K DMIPS的MCU算力（8个Cortex-R5F内核）；
320 GFLOPS的DSP算力（4个C7X）；

07 地平线

地平线SOC的产品矩阵如下：

图片来源：焉知汽车

1. BPU架构

BPU是由地平线提出的一种专门为人工智能应用设计的处理器架构，特别聚焦于深度神经网络的高效计算。BPU旨在解决传统处理器在处理大规模并行计算任务时的效率问题，特别是在图像识别、语音处理、自然语言理解和控制等领域。

图片来源：地平线

BPU设计的核心是为深度学习算法量身定制，通过优化的硬件加速器实现卷积神经网络（CNN）、循环神经网络（RNN）、Transformer等复杂神经网络模型的快速计算。这使得在有限的功耗和成本下，能够达到更高的计算效率和性能。

图片来源：地平线

2. J3

2020年9月，地平线正式推出征程3芯片，伯努利2.0架构。

征程3采用台积电16nm制程工艺，典型功耗为2.5W，支持对 H.264 和 H.265 视频格式的高效编码。

CPU方面：

采用4个Arm Cortex A53内核，具有32KB/32KB L1 I/D核512KB 2级高速缓存；
最大工作频率为:1.2GHz;
支持动态频率缩放(DFS);

BPU方面：

由BPU0和BPU1双核伯努利架构组成，算力为5TOPS；
最大工作频率：950MHz;
支持动态频率缩放(DFS);

DRAM方面：

支持x32片外DDR4/LPDDR4/LPDDR4X DRAM，最大支持4GB容量；
支持的DDR4最大速度可达DDR4-3200 MT/s;
支持的LPDDR4/LPDDR4X 最大速度达3200MT/s；

3. J5

2021年7月，地平线推出征程5芯片。

采用16nm制程工艺，典型功耗为30W。

芯片架构：

图片来源：地平线

主要配置：

八核Cortex-A55 CPU；
2个可编程Vision P6 DSP。DSP可用于CV计算加速，同时可以用神经网络计算，支持SIMD和VLIW计算架构，提升计算效率，频率最高到650MHz。DSP可配置成256 8x8 MAC，总共达到0.67TOPS；
双核BPU，采用贝叶斯架构设计，可提供128TOPS的算力；
Optical flow processor：光流处理器；
2个ISP：

每个ISP模块可支持2x4k/8M@30fps图像处理；
支持多帧曝光宽动态 (HDR)；
支持各种主流CFA（如：RGGB、RCCC、RGBIR 2x2、RCCB、RCCG和RYYCy等）；
具备如下能力：黑电平补偿，缺陷像素检测与校正，图像降噪，色差矫正，镜头矫正，去马赛克等；

4. J6

2024年4月24日，地平线在北京正式发布征程6系列芯片。

图片来源：地平线

预计2024年第四季度完成首批量产车型交付，并预计于2025年实现超10款车型量产交付。

J6采用第四代BPU架构“纳什”，专为大规模参数的Transformer模型和高级智能驾驶优化，一共有6个配置（B、L、E、M、H、P）。

图片来源：地平线

J6P是旗舰产品，主要特点：

晶体管数量：370亿；
AI算力：纳什架构第四代BPU，560TOPS（在1/2稀疏网络下的等效算力）；
CPU：18核心的ARM Cortex-A78AE，算力是410K DMIPS；
GPU：200GFLOPS；
MCU：算力10K DMIPS；
存储带宽：支持LPDDR5，带宽：205GB/s；
图像带宽：5.3Gpixel/s，前视感知支持1800万像素；
高性能内部总线：TB/s级速度，访存延时低至130纳秒；
VPU：即矢量浮点运算加速单元，适用于新一代大模型Transformer较多的矢量运算；

J6P和特斯拉第一代FSD的部分指标对比：

图片来源：地平线发布会

08 华为

华为芯片Roadmap如下，目前用在自动驾驶域控制器上的SOC主要是Ascend 610：

图片来源：华为

1. 昇腾310

昇腾310处理器于2018年推出，主要用于推理场景，具有较高的能效比，主要用于MDC210、MDC300F域控制器上。

主要规格：

架构：自研达芬奇；
制程：12nm FFC；
算力：16TOPS（INT8），8TFLTOS（FP16）；
带宽：最高16GB LPDDR4X@3200MHz；
16通道全高清视频解码器-H264/265；
1通道全高清视频编码器-H264/265；
功耗：8W；

2. 昇腾610

主要特点：

自研达芬奇架构，7nm制程；
AI算力：200 TOPS(INT8)，100 TFLOPS(FP16)；
ARM CPU算力：16核，220K DMIPs；
带宽：LPDDR5@6400MHz；
96*FHD Video decoder，24*FHD video encoder；
支持业界主流的AI框架，如Caffe、Tensorflow、Pytorch、ONNX，支持400个以上主流算子；
可配置的硬件加速器；
具有Vector Core，提供矢量加速和CPU的scalar运算单元紧耦合，加速控制和数据并行运算混合的程序段，有利于频繁递归的CV算法。

该芯片主要用于MDC610和MDC810域控制器中：

图片来源：华为

MDC 610域控制器的硬件架构，如图所示：

图片来源：网络

MDC610域控制器实物照片：

图片参考：混合动力之路，https://www.bilibili.com/video/BV17J4m1K7BA/

3. 昇腾910

昇腾910芯片在2019年推出，主要面向训练场景，性能可对标英伟达A100。

图片来源：https://xueqiu.com/4927163759/136970465

主要规格：

架构：自研达芬奇；
制程：7nm；
算力：640TOPS（INT8），320TFLOPS（FP16）；
100G RoCE v2，PCIe Gen4*16；
128通道全高清视频解码器-H264/265；
功耗：350W；

09 SOC技术发展趋势

1. 算力提升和集成度提升

随着自动驾驶对算力的需求不断增加，SOC芯片算力在不断提高。

图片来源：Black Sesame estimates, HSBC Qianhai Securities

由于算力的提升，域控制器上SOC的数量在减少：

在中低算力平台，普遍由多SoC方案改为单SoC方案。
在高算力平台，由2~4颗SOC，改为1~2颗更大算力的SOC。
在舱驾融合架构中，有些厂家已经提出了单SOC方案（例如Thor）。

2. SoC适配新模型，架构不断迭代

目前主流的感知算法框架是BEV+ Transformer+ OCC，今年以来，端到端大模型又成为讨论的热点。

智驾算法不断地迭代升级，必将驱动智驾SoC芯片的技术架构不断地向前演进。

为了实现最佳的算法性能，SoC需要开发适配新模型的芯片架构、加速单元或者特定算子。例如：

英伟达的最新GPU架构Hopper，专门增加了Transformer引擎，为Transformer算法做了硬件优化，集合了新的 Tensor Core、FP8 和 FP16 精度计算，以及 Transformer 神经网络动态处理能力，从而加速AI计算的效率。
地平线的J6芯片在硬件上了做了大量的超越函数的优化工作，比如支持Layer-norm&Softmax算子的硬件加速，支持 Transpose&Reshape算子的硬件加速。

3. 优化通信带宽

数据在处理过程中需要不断地从存储器单元“读”数据到处理器单元中，处理完之后再将结果“写”回存储器单元。数据在存储器与处理器之间的频繁迁移将带来严重的传输功耗问题。

有业内人士提出，AI运算90%的功耗和延迟都是由于数据搬运产生的。

常见SOC芯片的带宽如下：

芯片型号		内存类型	内存位宽（bit）	内存总带宽（GB/s）
英伟达	Xavier	LPDDR4x	256	137
英伟达	Orin	LPDDR5	256	204.8
特斯拉	第一代FSD	LPDDR4	128	34
特斯拉	第二代FSD	GDD R6	256（推测）	448（推测）
地平线	J5	LPDDR4x	64	——

数据来源：网络

通信带宽是制约有效算力的关键因素，提升片内和片间通信带宽是SOC的重要设计方向。

1）地平线J6通过全新的存储系统设计，片上包括L0M、L1M、L2M共三级存储系统，通过先进的总线架构和高带宽的DDR，有效提升了内存带宽。

2）英伟达的NVLink是GPU和CPU之间的高速连接通道。第四代 NVLink 连接主机和加速处理器的速度高达每秒 900GB/s。

图片来源：英伟达

3）存算一体技术：

图片来源：https://zhuanlan.zhihu.com/p/522755103

另一个思路是，减少计算对于内存的访问量，例如，安霸CV3系列芯片采用了第三代CVflow架构，该架构将片上内存（On-chip Memory）分割成多个不同大小的内存块，用于存储计算的中间结果，从而显著减少对外部DRAM的访问次数。

10 结语

作为整个自动驾驶系统的核心，SOC的选型对于自动驾驶系统的性能、开发方式和成本影响巨大。

如何在众多的SoC芯片里面，选择一款合适的型号，是一门复杂的系统工程，不单需要考虑深度学习算力，还需要考虑CPU算力、内存带宽、安全、功耗和成本等。

如果想深入了解芯片，推荐《芯片战争》（豆瓣评分8.3），大家有时间可以看看：

“雪岭 · 自动驾驶”系列文章

本文内容仅代表个人观点，和真实情况有可能有偏差，仅供参考。如需要相关内容更详细的技术信息，欢迎添加“雪岭飞花”微信（maxhnnl）进一步交流，感谢。

参考资料：

焉知汽车，《焉知产研 | 车载SoC芯片产业分析报告》，https://mp.weixin.qq.com/s/Y8B66KsEBUaIGnFb_6lYDA
HSBC, Frank He, Auto semiconductors, July 2022

我是雪岭飞花，汽车行业24年开发经验，自动驾驶行业发展的见证者和参与者，自动驾驶感知和控制系统资深专家。

做有深度、高质量的技术分享，如果文章对您有帮助，欢迎关注、点赞和转发。如有疏漏或者错误，请批评指正。

如需加入自动驾驶专家微信群，和自动驾驶CEO/CTO、研发/产品总监、资深开发专家探讨交流，请联系“雪岭飞花”微信（maxhnnl），备注所在公司和从业方向。感谢~

雪岭飞花

研究自动驾驶行业最新趋势，做有深度、高质量的技术分享，推动自动驾驶技术的普及和发展。