上一篇(端到端自动驾驶的秘密(二)概述)我们提到一个关于工程实现的挑战:端到端模型通常规模较大,训练和推理过程需要较高的计算资源,如何将模型部署到实际的硬件平台上,并且确保其在各种复杂的现实环境中都能稳定工作。本篇我们就重点考虑端到端的到来给车载芯片架构带来哪些变化,以及能够支持或潜在支持端到端架构的芯片有哪些。
(二)概述:端到端概念、端到端发展历程、端到端原理、端到端特点、端到端与传统架构的对比分析以及端到端面临的挑战。(已发布)
(三)芯片架构变化:现有芯片如何高效部署、芯片架构需要哪些创新、可能支持/潜在支持端到端架构的芯片企业方案介绍。
(四)20 多个端到端自动驾驶企业/研究机构方案盘点
要通过优化端到端模型来实现在现有芯片上的高效部署,可以参考以下策略:
模型压缩和优化:通过模型剪枝、量化、知识蒸馏等手段减少模型大小和计算复杂度,从而适应现有芯片的算力限制。 适配芯片算力:根据芯片的具体算力和架构特点,调整模型的参数和结构,使其能够高效地在硬件上运行,避免资源浪费。 分布式处理:将大型端到端模型分解为多个小模块,分配到多个处理器上并行处理,充分利用系统资源,提高运算效率。 硬件加速器设计:为特定的算法模块设计专用的硬件加速器,以提高运算效率,减少整体运算时间。 能效优化:优化模型和硬件以提高能效,延长车辆电池寿命,这对于车载系统尤其重要。 任务划分与异步计算:合理划分任务优先级,利用异步计算的方式,确保关键任务优先执行,非关键任务可以在资源空闲时进行。 适配缓存和存储结构:优化数据存储和读取策略,以减少内存访问时间和数据传输带宽,提高整体运算效率。 软件优化:使用高效的数值计算库和编程语言,优化算法实现,减少不必要的计算和数据复制。
原生支持 Transformer 架构:端到端模型高度依赖 Transformer 架构,因此芯片架构需要能够原生支持 Transformer,以提供必要的 AI 计算能力。
芯片架构创新:车载芯片需要不断创新以满足高阶智驾算法对算力的需求,比如通过引入新的处理器核心、提高运算效率等方式提升性能。
硬件与软件协同优化:芯片设计需要考虑与自动驾驶软件算法的协同优化,以实现更高效的部署,例如通过硬件加速器针对性地优化特定算法的运算过程。
引入先进工艺:采用更先进的制造工艺可以提升芯片的性能和能效,从而更好地支持端到端模型的运算需求。
灵活性和可扩展性:芯片设计应具备灵活性和可扩展性,以适应算法和数据流处理的不断变化需求。
功能安全考量:在提升芯片性能的同时,必须确保符合汽车功能安全标准,这对于自动驾驶芯片尤其重要。
车载芯片架构的这些创新将有助于提高端到端模型的部署效率,确保自动驾驶系统能够安全、高效地运行。
NVIDIA 的 DRIVE AGX 系列芯片专为自动驾驶设计,具有高度的可扩展性和灵活性,支持复杂的 AI 模型,包括端到端模型。DRIVE AGX Orin 开发套件:
由单个 Orin 模块供电,可提供高达 254 TOPS
包括开发生产级自动驾驶汽车应用程序所需的硬件、软件和示例应用程序
基于生产汽车级硅构建
提供丰富的汽车 I/O 和扩展灵活性
地平线征程系列:
地平线公司推出的征程系列芯片,专注于为自动驾驶提供高效的 AI 计算能力,可以支持端到端的自动驾驶算法。24 年 4 月 24 日,地平线智驾科技产品发布会上,重磅发布了新一代车载智能计算方案征程®6 系列就是面向下一代端到端需求算法的 Horizon SuperDrive 高阶智驾域控。
华为昇腾 AI 芯片系列:
如 310 和 910,旨在为自动驾驶提供高性能、低功耗的 AI 处理能力,可以支持端到端的自动驾驶解决方案。
华为从 2004 年开始投资研发第一颗嵌入式处理芯片,历经 15 年,投入超过 2 万名工程师,形成了以“鲲鹏+昇腾”为核心的基础芯片族。此外,还有较为边缘的 SSD控制芯片、智能网卡芯片、智能管理芯片等产品。为适应 AI 运算的高性能要求,一般认为基础硬件具备至少 64 核、8 个内存通道、PCIe 4.0、多合一 SoC、xPU 高速互联、100GE 高速 I/O 等六个特征。而支持 64 个核心的鲲鹏 920 及芯片组能够满足以上要求。
图 以“鲲鹏+昇腾”为核心的基础芯片族
昇腾910(Ascend 910):华为旗舰级 AI 芯片(2018 年 10 月首次发布) 昇腾 310(Ascend 310):边缘计算的赋能者(2018 年 10 月首次发布)
采用达芬奇架构,单芯片计算密度全球第一。拥有超大规模计算核心、高带宽内存接口和高效片上互联。性能媲美 NVIDIA A100(40GB)。FP16 算力高达 320 TFLOPS,INT8 算力达 640 TOPS。采用 7nm 工艺,功耗仅 310W,能效卓越。其强大的算力远超同代竞品,可高效训练大规模深度学习模型。凭借其卓越性能,昇腾 910 成为业界领先的 AI 训练芯片。昇腾 910 采用创新架构,整合 HCCS、PCIe 4.0 和 RoCE v2 接口。HCCS 是华为自研高速互联技术,与片内 RoCE 搭配,实现节点间高效直连。这种灵活扩展能力,满足横向扩展和纵向扩展系统需求。适用于数据中心、云端环境的AI模型训练,满足图像识别、语音识别、自然语言处理等复杂 AI 任务的高性能计算需求。科研机构、大型互联网公司和企业级客户的理想选择。
采用达芬奇架构,集成了CPU、AI核和数字视觉处理单元,为边缘计算和轻量级服务器提供出色能效比和实时推理能力。支持多种精度计算,在低功耗下高效完成 AI 推理任务。AI Core 的创新架构和电路设计带来惊人的高性能计算能力和高效能。其低功耗特性非常适用于神经网络的复杂计算,满足深度学习应用的需求。采用先进的 12nm 工艺制造,兼顾性能和能效。搭载强大算力的海思芯片,提供:FP16 浮点数算力高达 8TOPS,INT8 整型数算力高达 16TOPS。适用于嵌入式设备、智能摄像头、自动驾驶等边缘设备。赋能各界智能化,驱动实时视频分析、物体检测、语音唤醒、自然语言交互等,助推智慧城市、智慧交通、智能制造、智能家居、移动终端等领域创新应用。
昇腾 910 和 310 处理器性能对比
昇腾 910 | 昇腾 310 | |
性能 | 提供高达 18TOPS 的算力 | 提供高达 9TOPS 的算力 |
高通的 Snapdragon Ride 平台由汽车行业中最先进、可扩展和可定制的自动驾驶 SoC 系列组成,旨在助力全球汽车制造商和一级供应商打造安全、高能效和优化散热的 ADAS / AD 解决方案。已发布的 Snapdragon Ride™ 软件开发套件(SDK)将助力一级供应商和汽车制造商快速开发下一代 ADAS 和 AD 解决方案,该套件旨在提供全面的软硬件环境赋能一级供应商和汽车制造商的能力,以增强其驾驶策略软件栈和集成组件,包括泊车软件、驾驶员监测系统、面向激光雷达和雷达的其它传感器处理,以及可集成进 Snapdragon Ride 视觉系统的增强现实解决方案。Snapdragon Ride SDK 还包含端到端的数据管理和工具链生态系统,支持云端仿真和机器学习,从而赋能持续集成/持续交付(CI/CD)的开发运维模式。
AMD 第二代 Versal 自适应 SoC 产品:
4 月 9 日,AMD 正式发布了其第二代 Versal 自适应 SoC 产品,其中包括第二代 Versal AI Edge 系列,也就是 AI 驱动型嵌入式系统,以及面向经典嵌入式系统的第二代 Versal Prime 系列。目前,第二代 Versal AI Edge 系列产品已经有了实际应用案例,斯巴鲁的 EyeSight 视觉系统就将基于该器件,以支持碰撞前制动、车道偏离预警、自适应巡航控制和车道保持辅助。第二代的 Versal™ AI Edge 系列和第二代的 Versal Prime 系列产品,样片会于 2025 年上半年发布,评估套件和系统模块将于2025年年中推出,量产芯片将于 2025 年末面世。
AI 引擎性能提升:第二代产品采用了新一代的 AI 引擎 AIE-ML v2,通过扩展的数据类型支持,相较于第一代能够实现 3 倍的每瓦 TOPS 提升。 CPU 性能提升:CPU 全面升级提供 10 倍的标量算力,可以实现 8 倍的 Arm Cortex-A78AE 核心,每核心最高频率达 2.2GHz,并且有高达 200.3K 的 DMIPS 算力。 实时处理能力提升:针对控制功能的实时处理单元 RPU 拥有高达 10 倍的 Arm Cortex-R52 核心,每核心最高频率为 1.05 GHz,具有 28.5K 的 DMIPS 算力。 领先的可编程逻辑:可进行非常灵活的预处理,包括传感器融合和数据调节,并加入了新的硬图像和视频处理。 安全性提升:支持 ASIL D 和 SIL 3 安全标准,将通过车规级认证和安全认证。 集成化提升:集成化更高,可以减少外部组件,降低系统功耗、体积和成本。
需要注意的是,随着技术的快速发展,新的芯片和更新的版本可能会推出,它们可能会有更好的性能和支持,以适应不断发展的端到端自动驾驶需求。因此,建议在实际选择时查看最新的产品信息和技术规格。
本篇内容就到这里,下篇我们开始盘点 20 多个企业/研究机构的端到端方案~
Tips:本文章参考及引用内容均来自公开网络,部分内容的梳理由 AI 生成,参考及引用内容将在最后的完整版文章内附上~
公号👇发消息“我来了”,可直接领取“10G+自动驾驶相关资料”
进交流群
知识星球