雪岭 · 自动驾驶SOC——芯片架构、6个主要玩家Roadmap和产品、技术趋势(1.2万字概览)

科技   科技   2024-07-04 00:36   上海  
Intel芯片版图,图片来源:cpumuseum

自动驾驶系统的核心是域控制器,域控制器的核心是SOC。

SOC决定了一个智驾平台的硬件架构,甚至很大程度上会影响智驾平台的软件架构和算法体系。



本文主要介绍:

  1. SOC的芯片架构,主要是AI处理器、CPU、MCU、GPU等基本原理和主流架构方案;

  2. 6个主流玩家(英伟达、特斯拉、高通、TI、地平线和华为)的Roadmap和主要产品;

  3. 自动驾驶SOC的技术发展趋势



01

芯片架构

下图是特斯拉FSD和英伟达Xavier的内部架构图:

图片来源:HSBC Qianhai Securities


可以看出,一颗SOC里面通常集成了CPU、GPU、NPU、ISP、各种加速器以及外设单元。


这些处理单元通常具备不同的特点,分别负责不同的计算任务,一般的算力部署方案如下图所示:

图片来源:https://mp.weixin.qq.com/s/ECNNxux_AoGTu5ZJ2Aax7A


1. AI处理器

在AI计算中,需要执行大量的“乘加运算”(Multiply Accumulate, MAC)。大多数AI算法都是由许多这样的运算构成,它们在大数据集上往往形成树状结构。


AI处理器是用于机器学习算法的专用处理器,在运行机器学习算法时,处理速度远超一般的CPU和GPU。


例如下图中,CPU、GPU和特斯拉AI处理器(NNA)的处理速度对比:

图片来源:HSBC Qianhai Securities


环境感知模块一般是深度学习算力使用的大户,包括常见的各类图像、激光点云检测算法,比如物体检测、车道线检测、红绿灯识别等,都会涉及大量的神经网络的运算。此类模块通常使用高度定制化的AI处理器来实现。


AI处理器有很多不同的名称,例如Intel和AMD的NPU,地平线的BPU,Google的TPU,特斯拉的NNA等等。

图片来源:网络


AI处理器普遍以TOPS(Tera Operations Per Second)为单位,来评估深度学习的理论峰值算力。

深度学习算力理论值取决于运算精度、MAC运算单元的数量和运行频率。例如,假设芯片内有512个MAC运算单元,运行频率为1GHz,则INT8的理论算力 = 512 * 2 * 1GHz = 1TOPS,如果是FP16的算力为0.5TOPS,FP32的算力为0.25TOPS。


通常,各大芯片厂商宣传的算力往往是运算单元的理论最大值,而在实际使用过程中,实际的算力往往达不到该理论最大值,甚至有时可能只有理论值的50%,甚至更低。


“有效算力”主要受两方面的影响:

  1. 处理器的计算架构:深度学习加速器本身是高度定制化的计算架构,只有执行和加速器特性比较匹配的网络结构,才能发挥出较高的利用率。

  2. 存储带宽:存储带宽决定数据搬运的速度。如果存储带宽跟不上计算速度,则数据无法及时到达计算单元,导致处理器的计算单元空闲,从而降低处理器的算力利用率。


2. CPU

CPU通常用于复杂逻辑运算任务,例如,多传感器感知融合算法、决策规划算法等。


随着深度学习模型算力需求的增加,CPU也需要处理更多的传感器数据,以及更复杂的算法,因此对于CPU的算力需求也在逐渐提高。


通常采用KDMIPS(KiloDhrystone Million Instructions Per Second)来衡量CPU的算力。


CPU的内部架构示意如下,主要包括:Control(取指/分支预测/数据转发等)、ALU(逻辑运算)、Cache(高速缓存)和DRAM(存储单元)等。

CPU的常见架构有MIPS和ARM。其中最常见的是ARM架构,并且以Cortex A系列内核为主。


下图是ARM内核的Roadmap,其中最上面的绿色部分的A核为CPU常用内核,下面蓝色的R核和M核是MCU常用核心(见下一节)。

图片来源:ARM


不同Cortex A型号的CPU算力如下:

图片来源:焉知汽车

(以AE结尾的内核支持锁步,可支持实现ASIL-D功能安全等级)


Cortex A72内核架构如下:

图片来源:ARM

3. MCU

MCU主要用于故障诊断、安全校验以及车辆控制算法和安全相关信号交互。因此MCU的功能安全等级一般要达到ASIL D,常采用锁步核。


MCU可以是独立的器件(例如TC397),也可以集成在SOC里面(例如TDA4内置Cortex R5F)。如果是内置MCU方案,MCU的总线、接口和电源均要和其他处理单元做硬件隔离。


MCU有多种架构,例如英飞凌的TriCore、瑞萨的G3KH、ARM的R核或者M核(例如上图中的Cortex M7、Cortex R5F) 。


例如常见的Cortex R5F内核如下:

图片来源:ARM

4. GPU

GPU具有较强的浮点运算能力,通常用于图像的3D渲染和拼接等应用。一般采用TFLOPS(Tera Floating-Point Operations Per Second)来衡量GPU的浮点运算处理能力。


GPU的概念首先由英伟达提出,其结构和CPU有较大的不同,GPU的大部分晶体管被用于ALU,因此具备强大的并行计算能力。


CPU与GPU架构对比示意图:

图片来源:焉知汽车


对于GPU架构,比较常见的是英伟达和ARM的Mali系列。


英伟达的GPU架构Roadmap:

图片来源:CSDN,daijingxin


英伟达在2022年3月下旬,发布了采用全新Hopper架构的H100,拥有NVIDIA当前最强的GPU规格。下图为GH100 Streaming Multiprocessor (SM) :

图片来源:英伟达


ARM的GPU就是Mali系列,Mali系列GPU分为Utgard、Midgard、Bifrost、Valhall四个系列,性能逐渐提高。


图片来源:ARM


ARM GPU的Roadmap如下:

图片来源:ARM

5. SOC其他组件

除了上面处理单元之外,SOC一般还包括:

  • DSP作为一种具有特殊结构的微处理器,相比于通用CPU,它更适用于计算密集度高的处理工作,例如,传统的CV图像处理、一些自定义算子的加速处理等。例如,TI的C7x DSP,除了支持常见的标量运算和矢量运算,还增加的矩阵乘加速器(MMA),进一步的提升了DSP的专用能力。

  • ISP是视觉处理芯片,其主要功能是对摄像头输出的图像信号做调校,例如AE、AF、AWB、图像去噪等;

  • 专用视觉加速器:有些视觉算法属于计算密集型(和深度学习类的算法不同),比如图像金字塔(Pyramid)、畸变矫正(Rectify)、局部特征提取、光流跟踪、图像编解码(Codec)等运算,一般采用专用的视觉加速器进行处理,实现低时延。

  • 硬件安全模块HSM:用于为数据提供加解密服务,管理敏感信息和资产,实现信息安全的相关需求。

  • Encoder/Decoder编码器/解码器:用于图像信息的编解码。

  • RAM内存:SoC内部一般还会集成少量的存储器,例如SRAM和DRAM,不过更大容量的内存一般需要外扩DDR芯片。

  • 外设:外部连接的设备和接口,例如MIPI CSI、PCIe、LVDS、USB、CAN、Ethernet、LIN、RS232、I2S、TDM、SPDIP、DP、HDMI等等;


02

SOC市场情况和主流SOC

1. SOC市场情况

根据ICV的数据,2022年全球智能驾驶SoC市场规模为32.95亿美元,中国市场规模达15.05亿美元,占全球的45.68%。

据测算,2024年,全球智能驾驶SoC市场规模有望突破100亿美元,到2027年预计达到283.06亿美元,年复合增长率高达43.11%。


据盖世汽车研究院统计数据显示,2023年,中国市场乘用车(不含进出口)前装标配智驾域控制器183.9万套,同比增长约70%,前装搭载率约为8.7%。

其中,中国市场域控制器SOC的出货量如下:

图片来源:盖世汽车

2. 主流SoC

主流自动驾驶SoC产品推出时间和性能,对比如下:

图片参考:中信证券


目前市场主要芯片参数,以及搭载车型和域控产品如下:

图片来源:智驾社


在中大算力市场,开放程度更高的SOC越来越受OEM欢迎。

随着自动驾驶重要性的提升,相当多OEM希望自研自动驾驶算法(甚至少量OEM自研SOC芯片),因此希望SOC芯片足够开放,尤其是自研能力较强的头部OEM。很多OEM将SOC由Mobileye的芯片,替换为了开放程度更高的英伟达、高通等芯片。


下图是HSBC在2022年统计的部分主要OEM所采用的自动驾驶SOC的变化趋势:

图片来源:HSBC Qianhai Securities


从目前情况来看:

  • 在小算力市场(<30TOPS,轻量化行泊一体):TI TDA4VM和地平线J3目前份额较高;

  • 在中算力市场(30~200TOPS,高速NOA):特斯拉FSD 1.0、英伟达Orin-N、TI TDA4VH等份额较高;

  • 在大算力市场(>200TOPS,城市NOA):英伟达Orin-X、华为MDC、地平线J5份额较高;



03

英伟达

2016年,英伟达向OpenAI捐赠了他们的首台人工智能超级计算机DGX-1,DGX-1 被英伟达称作为「AI 超级计算机」,当时捐赠的版本价值 12.9 万美元。


DGX-1集成了 8 块 Tesla P100(Pascal 架构)GPU,整个系统的机器学习算力为 170 TFLOPS(FP16)。

图片来源:网络


2024年4月25日,黄仁勋给OpenAI赠送全球第一台 Nvidia DGX H200 超级计算机。

OpenAI联合创始人、总裁 Greg Brockman 发推,晒出了自己、OpenAI CEO 奥特曼与英伟达创始人兼 CEO 黄仁勋的合照。

图片来源:网络


DGX H200是2023年11月在全球超算大会上推出的最新产品。英伟达在官方博客中曾表示:H200 TensorCore GPU具有改变游戏规则的性能和内存功能,可增强生成式AI和高性能计算(HPC)工作负载。单块H200的FP16算力是1979 TFLOPS。


2024年6月19日, NVIDIA市值达到了3.34万亿美元,问鼎全球上市公司市值榜首。

图片来源:网络


英伟达近10年的股价走势:

图片来源:东方财富

1. Roadmap

自从2015年进入车载领域,到现在为止,英伟达先后推出了Tegra、Paker、Xavier、Orin等多款SoC芯片。当前,在智能驾驶大算力SoC芯片领域,Orin芯片的市场占有率在全球处于领先地位。

2022年,英伟达发布了用于舱驾一体的中央计算超大算力芯片Thor,计划在2025年量产。

图片来源:英伟达


图片来源:焉知汽车

2. Xavier

英伟达于2016年发布首款高级智能驾驶芯片Xavier,并于2020年实现量产。


使用CPU(8核ARM64架构)+GPU(Volta架构)+ASIC的混合技术路线,基于台积电12nm工艺,最高算力达30TOPS。


Xavier用于德赛西威IPU03域控制器上,搭载于小鹏P5、P7等车型。


基于Xavier的参考设计:

图片来源:英伟达

3. Orin

Orin于2019年发布,2022年量产。

图片来源:英伟达


Orin处理器架构:

图片来源:英伟达


Orin技术规格如下:

  1. 制程技术:7nm工艺,单个ORIN芯片集成了170亿个晶体管;

  2. AI算力:254TOPS = CUDA Tensor Core GPU + DLA;

  3. CPU:

  • 12个ARM Cortex-A78AE (Hercules) ARM64;

  • 4个R52 Lock-step Pairs;

  • GPU:NVIDIA Ampere架构的GPU,包含两个图形处理簇GPC,用于深度学习、图像处理和并行计算;

  • 硬件加速器:

    • 深度学习加速器Deep Learning Accelerators (DLA);

    • 可编程视觉加速器Programmable Vision Accelerator (PVA);

    • 光流加速器Optical Flow Accelerator (OFA);

  • AI推理能力:ORIN芯片特别强化了AI推理性能,能够执行复杂的神经网络模型;

  • 带宽:205 GB/s;

  • 功耗为45W;


  • 不同版本配置对比

    图片来源:网络


    Orin-X和Orin-N的配置对比:

    图片来源:英伟达


    Orin-X的参考设计:

    图片来源:英伟达


    双ORIN方案:

    图片来源:英伟达

    4. Thor

    Thor于2022年发布,预计2025年量产。

    图片来源:英伟达


    Thor是定位为舱驾一体的芯片:

    图片来源:英伟达


    技术规格如下:

    • 4nm工艺制程,770亿个晶体管;

    • AI算力:2000 TFLOPS@FP8;

    • BlueField DPU。

    • Leverages Hopper GPU:Grace

    • Grace CPU

    • NVLINK-C2C


    不同配置的Thor的芯片:



    04

    特斯拉

    特斯拉是为数不多的自研自动驾驶SOC的主机厂。

    目前已经量产了两代FSD产品。

    1. 第一代FSD

    第一代FSD于2019年4月正式发布,用于HW3.0。

    图片来源:特斯拉


    HW 3.0上使用了2片FSD芯片:

    图片来源:特斯拉


    主要参数:

    1. 工艺:三星14nm。

    2. CPU:12个Cortex-A72 CPU核 ,分成3个集群,每个集群包含4个CPU核心,CPU的最大频率为2.2GHz。

    3. NPU:特斯拉自研架构,设计了2个NNA核心,每个核心都可以执行8位整数计算,运行频率为2GHz,单个NNA的峰值算力为36.86TOPS,2个NNA的峰值算力为73.7TOPS。

    4. GPU:1个Mali G71 MP12 GPU,运行频率为1GHz,600GFLOPS

    5. 其他:ISP、Video Encode。

    6. 面积:硅晶片260𝑚𝑚2,约60亿个晶体管。


    芯片架构:

    图片来源:网络


    芯片版图:

    图片来源:WikiChip

    2. 第二代FSD

    第二代FSD芯片自2023年2月开始在汽车上装备,用于HW4.0上。

    图片来源:greentheonly


    图片来源:greentheonly



    第二代FSD的设计与第一代非常相似:

    图片来源:芯智讯


    主要参数:

    1. 工艺:三星7nm制程,采用了三星Exynos-IP内核。Exynos-IP是三星基于ARM构架设计的自有IP,Exynos-IP设计非常超前,近似于ARM Cortex X系列的旗舰X3的设计。

    2. CPU:20个CPU核(CPU架构未知 ) ,分成5个集群,每个集群包含4个CPU核心,CPU的最大频率为2.35GHz,低功耗时为1.37GHz。

    3. NPU:3个NPU,工作频率为2.2GHz,算力121TOPS。

    4. GPU:2个。

    5. 带宽:224GB/s。


    3. 第三代FSD

    Elon Musk在2024.6.21提到特斯拉的HW5,将被命名为AI5。

    图片来源:网络


    AI5算力大概是HW4.0的10倍,功耗整体提高4-5倍,2025年下半年推出。

    HW4.0的算力是242TOPS,因此AI5的算力大概为2400TOPS。

    AI5将搭载第三代FSD芯片,根据消息,该芯片将采用三星4nm工艺,估计仍然会采用三星Exynos-IP内核。


    05

    高通

    2020年1月,高通发布自驾平台Snapdragon Ride,通过多个SA8540P SoC和AI加速器SA9000P组合的方案,提供30~700TOPS的算力,支持实现不同级别的自动驾驶功能。

    图片来源:网络


    2023年1月,高通发布第二代Snapdragon Ride芯片组,包括Mid、High、Premium三个级别,既能用于车内座舱,又可以实现辅助驾驶,算力最高可达2000TOPS。

    图片来源:高通

    1. RoadMap

    高通自动驾驶和智能座舱芯片的Roadmap如下:

    图片来源:高通

    2. SA8540

    SA8540主要用于高通第一代Snapdragon Ride平台,目前已经逐渐弃用。


    3. SA8650

    SA8650采用4nm工艺,有3个A、B、C三个配置:

    SA8650是高通目前自动驾驶SOC的主打产品。


    4. SA8620

    AI算力为30-36TOPS,4nm,是SA8650的低配版本。


    5. SA8775

    SA8775是高通第一代舱驾一体SOC,可以认为是8155+8620的融合,可实现有限UNP+座舱功能。


    芯片配置:

    图片来源:网络


    SA8775的主要参数:

    1. CPU:两簇八核心设计,内核为Kryo 680 Gold Prime,最高运行频率都是2.35GHz。Kryo 680 Gold Prime基于ARM Cortex-X1而来的,算力为230kDMIPS,L3缓存4MB,L2缓存512kB;

    2. GPU:内核为Adreno 663,算力为1.1-1.3TFLOPS;

    3. 安全岛:4核ARM Cortex-R52;

    4. AI:高通V73架构,包含四个HVX矢量扩展,两个HMX矩阵扩展,最高频率1.5GHz,是基于DSP的架构,L2缓存1MB,还有紧耦合VCTM为8MB;

    5. DSP:2个通用DSP,最高运行是1.708GHz,拥有1MB的L2缓存;

    6. 存储带宽:96比特,支持LPDDR5 3200MHz,约77GB/s;


    从第三代开始,高通都采用模块出售,不再单独出售芯片,SA8775也是如此。

    高通QAM模组示例如下:

    图片来源:网络


    搭载SA8775芯片的模块是QAM8775P,最大尺寸:65.0 mm×65.0 mm×4.55 mm,采用BGM1573B封装。模组中关键组件包括:SA8775P SoC、4个PMM8650AU电源管理IC、1个第三方电源管理IC和3个315ball LPDDR5 SDRAM(美光,容量合计可能是12GB)。


    QAM8775P内部框架图:

    图片来源:佐思汽车研究

    6. SA8x97

    SA8x97P是高通的第五代芯片,有3种配置。

    基本性能参数如下:

    性能最高的SA8797P-Pro/SA8397P-Pro的芯片架构如下:

    图片来源:高通


    SA8x97P芯片预计25年Q1 ES,26年Q1 QS ,26年Q2 PS。


    06

    德州仪器

    TI在ADAS领域的产品线主要是TDA4系列,包括TDA4 VL、TDA4 VM和TDA4 VH不同的版本配置,以适配不同的市场定位需求。

    • TDA4 VL主攻前视一体机及入门级泊车控制器市场;

    • TDA4VM主攻轻量级多芯片SoC行泊一体或者单SoC分时复用行泊一体市场;

    • TDA4VH主攻轻量级单SoC全时运行行泊一体市场。


    图片来源:焉知汽车

    1. TDA4VM

    TDA4VM的系统架构:


    图片来源:TI


    主要配置:

    • C7x 浮点矢量 DSP,性能高达 1.0GHz、 80GFLOPS、256GOPS。C7x是TI的一款高性能数字信号处理器,其中的浮点矢量 DSP 可以进行高效的信号处理、滤波和计算,大幅提高神经网络模型的计算效率。

    • 深度学习矩阵乘法加速器 (MMA),性能高达8TOPS (8b)(频率为1.0GHz),可以高效地执行矩阵乘法和卷积等运算。

    • 具有图像信号处理器(ISP)和多个视觉辅助加速器的视觉处理加速器(VPAC):可以高效地执行图像处理、计算机视觉和感知任务。

    • 深度和运动处理加速器(DMPAC),执行深度计算和运动估计等任务。

    • 双核 64 位 Arm® Cortex®-A72 微处理器子系统,2.0GHz。

    • 六个 Arm® Cortex®-R5F MCU,1.0GHz

    • 两个 C66x 浮点 DSP,性能高达 1.35GHz、 40GFLOPS、160GOPS,执行信号处理、滤波和计算任务。

    • 3D GPU PowerVR® Rogue 8XE GE8430,750MHz、96GFLOPS、6Gpix/s,用于图形处理的硬件单元,可以实现高效的图形渲染和计算。

    1. TDA4VH

    TDA4VH是TDA4系列的旗舰产品,2023年2季度量产。

    图片来源:TI


    主要特征:

    • 32TOPS的AI算力(4个MMA);

    • 100K DMIPS的CPU算力(8个2.0GHz的Cortex-A72内核);

    • 16K DMIPS的MCU算力(8个Cortex-R5F内核);

    • 320 GFLOPS的DSP算力(4个C7X);


    07

    地平线

    地平线SOC的产品矩阵如下:

    图片来源:焉知汽车

    1. BPU架构

    BPU是由地平线提出的一种专门为人工智能应用设计的处理器架构,特别聚焦于深度神经网络的高效计算。BPU旨在解决传统处理器在处理大规模并行计算任务时的效率问题,特别是在图像识别、语音处理、自然语言理解和控制等领域。

    图片来源:地平线


    BPU设计的核心是为深度学习算法量身定制,通过优化的硬件加速器实现卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等复杂神经网络模型的快速计算。这使得在有限的功耗和成本下,能够达到更高的计算效率和性能。

    图片来源:地平线

    2. J3

    2020年9月,地平线正式推出征程3芯片,伯努利2.0架构。


    征程3采用台积电16nm制程工艺,典型功耗为2.5W,支持对 H.264 和 H.265 视频格式的高效编码。


    CPU方面:

    • 采用4个Arm Cortex A53内核,具有32KB/32KB L1 I/D核512KB 2级高速缓存;

    • 最大工作频率为:1.2GHz;

    • 支持动态频率缩放(DFS);


    BPU方面:

    • 由BPU0和BPU1双核伯努利架构组成,算力为5TOPS;

    • 最大工作频率:950MHz;

    • 支持动态频率缩放(DFS);


    DRAM方面:

    • 支持x32片外DDR4/LPDDR4/LPDDR4X DRAM,最大支持4GB容量;

    • 支持的DDR4最大速度可达DDR4-3200 MT/s;

    • 支持的LPDDR4/LPDDR4X 最大速度达3200MT/s;

    3. J5

    2021年7月,地平线推出征程5芯片。

    采用16nm制程工艺,典型功耗为30W。


    芯片架构:

    图片来源:地平线


    主要配置:

    1. 八核Cortex-A55 CPU;

    2. 2个可编程Vision P6 DSP。DSP可用于CV计算加速,同时可以用神经网络计算,支持SIMD和VLIW计算架构,提升计算效率,频率最高到650MHz。DSP可配置成256 8x8 MAC,总共达到0.67TOPS;

    3. 双核BPU,采用贝叶斯架构设计,可提供128TOPS的算力;

    4. Optical flow processor:光流处理器;

    5. 2个ISP:

    • 每个ISP模块可支持2x4k/8M@30fps图像处理;

    • 支持多帧曝光宽动态 (HDR);

    • 支持各种主流CFA(如:RGGB、RCCC、RGBIR 2x2、RCCB、RCCG和RYYCy等);

    • 具备如下能力:黑电平补偿,缺陷像素检测与校正, 图像降噪,色差矫正,镜头矫正,去马赛克等;

    4. J6

    2024年4月24日,地平线在北京正式发布征程6系列芯片。

    图片来源:地平线


    预计2024年第四季度完成首批量产车型交付,并预计于2025年实现超10款车型量产交付。


    J6采用第四代BPU架构“纳什”,专为大规模参数的Transformer模型和高级智能驾驶优化,一共有6个配置(B、L、E、M、H、P)。

    图片来源:地平线


    J6P是旗舰产品,主要特点:

    1. 晶体管数量:370亿;

    2. AI算力:纳什架构第四代BPU,560TOPS(在1/2稀疏网络下的等效算力);

    3. CPU:18核心的ARM Cortex-A78AE,算力是410K DMIPS;

    4. GPU:200GFLOPS;

    5. MCU:算力10K DMIPS;

    6. 存储带宽:支持LPDDR5,带宽:205GB/s;

    7. 图像带宽:5.3Gpixel/s,前视感知支持1800万像素;

    8. 高性能内部总线:TB/s级速度,访存延时低至130纳秒;

    9. VPU:即矢量浮点运算加速单元,适用于新一代大模型Transformer较多的矢量运算;


    J6P和特斯拉第一代FSD的部分指标对比:

    图片来源:地平线发布会


    08

    华为

    华为芯片Roadmap如下,目前用在自动驾驶域控制器上的SOC主要是Ascend 610:

    图片来源:华为


    1. 昇腾310

    昇腾310处理器于2018年推出,主要用于推理场景,具有较高的能效比,主要用于MDC210、MDC300F域控制器上。


    主要规格:

    1. 架构:自研达芬奇;

    2. 制程:12nm FFC;

    3. 算力:16TOPS(INT8),8TFLTOS(FP16);

    4. 带宽:最高16GB LPDDR4X@3200MHz;

    5. 16通道全高清视频解码器-H264/265;

    6. 1通道全高清视频编码器-H264/265;

    7. 功耗:8W;

    2. 昇腾610

    主要特点:

    1. 自研达芬奇架构,7nm制程;

    2. AI算力:200 TOPS(INT8),100 TFLOPS(FP16);

    3. ARM CPU算力:16核,220K DMIPs;

    4. 带宽:LPDDR5@6400MHz;

    5. 96*FHD Video decoder,24*FHD video encoder;

    6. 支持业界主流的AI框架,如Caffe、Tensorflow、Pytorch、ONNX,支持400个以上主流算子;

    7. 可配置的硬件加速器;

    8. 具有Vector Core,提供矢量加速和CPU的scalar运算单元紧耦合,加速控制和数据并行运算混合的程序段,有利于频繁递归的CV算法。


    该芯片主要用于MDC610和MDC810域控制器中:

    图片来源:华为


    MDC 610域控制器的硬件架构,如图所示:

    图片来源:网络


    MDC610域控制器实物照片:

    图片参考:混合动力之路,https://www.bilibili.com/video/BV17J4m1K7BA/

    3. 昇腾910

    昇腾910芯片在2019年推出,主要面向训练场景,性能可对标英伟达A100。

    图片来源:https://xueqiu.com/4927163759/136970465


    主要规格:

    1. 架构:自研达芬奇;

    2. 制程:7nm;

    3. 算力:640TOPS(INT8),320TFLOPS(FP16);

    4. 100G RoCE v2,PCIe Gen4*16;

    5. 128通道全高清视频解码器-H264/265;

    6. 功耗:350W;


    09

    SOC技术发展趋势

    1. 算力提升和集成度提升

    随着自动驾驶对算力的需求不断增加,SOC芯片算力在不断提高。

    图片来源:Black Sesame estimates, HSBC Qianhai Securities


    由于算力的提升,域控制器上SOC的数量在减少:

    • 在中低算力平台,普遍由多SoC方案改为单SoC方案。

    • 在高算力平台,由2~4颗SOC,改为1~2颗更大算力的SOC。

    • 在舱驾融合架构中,有些厂家已经提出了单SOC方案(例如Thor)。

    2. SoC适配新模型,架构不断迭代

    目前主流的感知算法框架是BEV+ Transformer+ OCC,今年以来,端到端大模型又成为讨论的热点。

    智驾算法不断地迭代升级,必将驱动智驾SoC芯片的技术架构不断地向前演进。


    为了实现最佳的算法性能,SoC需要开发适配新模型的芯片架构、加速单元或者特定算子。例如:

    • 英伟达的最新GPU架构Hopper,专门增加了Transformer引擎,为Transformer算法做了硬件优化,集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,从而加速AI计算的效率。

    • 地平线的J6芯片在硬件上了做了大量的超越函数的优化工作,比如支持Layer-norm&Softmax算子的硬件加速,支持 Transpose&Reshape算子的硬件加速。

    3. 优化通信带宽

    数据在处理过程中需要不断地从存储器单元“读”数据到处理器单元中,处理完之后再将结果“写”回存储器单元。数据在存储器与处理器之间的频繁迁移将带来严重的传输功耗问题。

    有业内人士提出,AI运算90%的功耗和延迟都是由于数据搬运产生的。


    常见SOC芯片的带宽如下:

    芯片型号内存类型内存位宽(bit)内存总带宽(GB/s)
    英伟达XavierLPDDR4x256137
    OrinLPDDR5256204.8
    特斯拉第一代FSDLPDDR412834
    第二代FSDGDD R6256(推测)448(推测)
    地平线J5LPDDR4x64——

    数据来源:网络


    通信带宽是制约有效算力的关键因素,提升片内和片间通信带宽是SOC的重要设计方向。

    1)地平线J6通过全新的存储系统设计,片上包括L0M、L1M、L2M共三级存储系统,通过先进的总线架构和高带宽的DDR,有效提升了内存带宽。

    2)英伟达的NVLink是GPU和CPU之间的高速连接通道。第四代 NVLink 连接主机和加速处理器的速度高达每秒 900GB/s。

    图片来源:英伟达


    3)存算一体技术:

    图片来源:https://zhuanlan.zhihu.com/p/522755103


    另一个思路是,减少计算对于内存的访问量,例如,安霸CV3系列芯片采用了第三代CVflow架构,该架构将片上内存(On-chip Memory)分割成多个不同大小的内存块,用于存储计算的中间结果,从而显著减少对外部DRAM的访问次数。


    10

    结语

    作为整个自动驾驶系统的核心,SOC的选型对于自动驾驶系统的性能、开发方式和成本影响巨大。

    如何在众多的SoC芯片里面,选择一款合适的型号,是一门复杂的系统工程,不单需要考虑深度学习算力,还需要考虑CPU算力、内存带宽、安全、功耗和成本等。


    如果想深入了解芯片,推荐《芯片战争》(豆瓣评分8.3),大家有时间可以看看:

    “雪岭 · 自动驾驶”系列文章

    1. 《自动驾驶系统:全景概览》

    2. 《雪岭 · 自动驾驶(1/10):系统架构》

    3. 《雪岭 · L3自动驾驶冗余模式和设计纲要》

    4. 《雪岭 · 自动驾驶(2/10):感知系统》

    5. 《雪岭 · 自动驾驶(3/10):控制系统-硬件(上):域控制器硬件架构》

    6. (本篇)《雪岭 · 自动驾驶SOC》



    本文内容仅代表个人观点,和真实情况有可能有偏差,仅供参考。如需要相关内容更详细的技术信息,欢迎添加“雪岭飞花”微信(maxhnnl)进一步交流,感谢。


    参考资料:

    1. 焉知汽车,《焉知产研 | 车载SoC芯片产业分析报告》,https://mp.weixin.qq.com/s/Y8B66KsEBUaIGnFb_6lYDA

    2. HSBC, Frank He, Auto semiconductors, July 2022



    我是雪岭飞花,汽车行业24年开发经验,自动驾驶行业发展的见证者和参与者,自动驾驶感知和控制系统资深专家。

    有深度、高质量的技术分享,如果文章对您有帮助,欢迎关注、点赞和转发。如有疏漏或者错误,请批评指正。

    如需加入自动驾驶专家微信群,和自动驾驶CEO/CTO、研发/产品总监、资深开发专家探讨交流,请联系“雪岭飞花”微信(maxhnnl),备注所在公司和从业方向。感谢~

    雪岭飞花
    研究自动驾驶行业最新趋势,做有深度、高质量的技术分享,推动自动驾驶技术的普及和发展。
     最新文章