【学术报告】中国自动化学会理事、清华大学教授邓志东 | 自动驾驶3.0与人形机器人：关于端到端纯视觉智能体发展的若干思考

科技 2024-12-06 19:05 北京

CAA

智慧起航，共创未来

导读：2024年7月19日，中国自动化学会理事、清华大学教授邓志东做客“CAA会士面对面”讲座并作题为“自动驾驶3.0与人形机器人：关于具身端到端纯视觉智能体发展的若干思考”的报告。

自动驾驶技术的起源可以追溯到DARPA的Grand Challenge和Urban Challenge。2004年和2005年的Grand Challenge主要面向越野环境，而2007年的Urban Challenge则面向城市环境。此时自动驾驶技术的开始发展起步，并取得了一些显著成果，例如2010年帕尔玛大学的自动驾驶车队在三个月内完成了从意大利帕尔玛到中国上海的13000公里行程。这一阶段的自动驾驶称为1.0阶段，它高度依赖于硬件设备，采用传统的计算机视觉方法进行自动驾驶，主要是通过高精度地图进行循线行驶。此阶段使用的设备通常体积庞大且价格昂贵，例如，高精度惯性卫星组合导航系统的价格约为60万元，可以实现厘米级的定位精度。

一、为什么一体化的端到端视觉语言动作大模型如此重要？

在感知部分，传统计算机视觉方法被广泛应用于环境感知和障碍物识别，主要依靠特征工程。在决策与规划部分，主要包括简单的决策和路径规划，特别强调车辆的纵向速度控制和横向偏差控制。这一阶段的自动驾驶系统依赖于人为设定的决策逻辑和基于规则的算法，因此被称为自动驾驶1.0阶段，如图1所示。

图1 自动驾驶1.0

自2016年起，随着大量产业资本的介入，中国的初创企业、头部企业、互联网企业、ICT企业、主机厂和造车新势力纷纷聚焦于自动辅助驾驶技术的发展。当前，国际汽车工程师学会（SAE）定义的自动驾驶分级标准被广泛采用，该标准将自动驾驶划分为L0到L5级别，进一步细分了自动驾驶技术的不同发展阶段。

2021年，SAE和ISO进一步发布了新版的自动驾驶分级标准，如图2所示，其强调了自动驾驶技术在不同功能、区域和环境条件下的应用。这些标准帮助明确了各类自动驾驶系统的实际能力，尽管一些企业可能出于宣传目的将辅助驾驶系统称为自动驾驶系统。L0到L2级别被称为辅助驾驶，而只有L3到L5级别才被定义为自动驾驶。因此，当我们谈论自动驾驶时，指的是L3及以上级别，L2及以下都属于辅助驾驶。

图2 新版自动驾驶分级标准 SAE J3016

目前在中国广泛商业化应用的是NOA（Navigation Output Autopilot），被称为L2++的自动辅助驾驶系统。NOA系统实现了低接管率，使得驾驶员从驾驶员变成了安全员，不再需要频繁操作。这标志着商业化落地进程的开始。如今，包括比亚迪、蔚来、小鹏、理想、华为、极越、小米和大疆等在内的企业都已涉足L2++智能电动汽车领域，NOA成为新能源汽车的标准配置。

NOA系统从高速公路逐渐发展到城市道路，并正在研发综合性的NOA系统，融合高速和城市道路的导航功能。这一过程中，关键技术的突破和普遍应用至关重要，包括鸟瞰图、Transformer模型的广泛使用、占用网络的预测以及车道级地图的应用。这些技术的发展标志着自动驾驶从1.0阶段迈入2.0阶段。

在自动驾驶2.0阶段，基于深度学习的技术被广泛应用，其特点是分段完成自动驾驶解决方案。系统被划分为感知、预测、决策与控制等模块，如图3所示。感知部分包括环境感知和自主导航，不再依赖昂贵的高精度导航设备，而是采用视觉、激光雷达和SLAM技术，从而降低成本并提高环境适应性。感知部分也从高精度地图转向车道级地图。

图3 自动驾驶2.0

尽管预测、决策与控制部分的技术变化不大，依然是基于人为设定的条件进行，但这一分段方法也带来了显著的可解释性。然而，这种人为设定的先验条件也引入了局限性，特别是在面对边缘事件和小概率事件时，系统难以应对。这种方案需要穷举各种可能性，导致代码复杂性增加，并且无法全面覆盖所有情况。因此，自动驾驶2.0阶段的方案面临长远发展问题和边缘案例的挑战。

自动驾驶3.0阶段采用端到端的视觉语言建模方法，通过模拟真实事件中物体之间的运动学、动力学及其他物理学规律，在连续的隐含空间中实现统一的表达、理解、记忆、预测、交互与决策。这种方式类似于人类的“快思维”模式，实现了驾驶行为的自主闭环。特斯拉的FSD（Full Self-Driving）系统就是一个典型的例子，它通过彻底的端到端解决方案，大大减少了代码量，从原来的30万行减少到仅几千行，依赖视觉神经网络进行学习和决策。

这种方法的优势在于，通过视觉神经网络的学习，可以显著提升自动驾驶系统的自主性和环境适应性。例如，DQN（Deep Q-Network）在阿塔瑞游戏中的应用展示了深度强化学习在像素级视觉输入和动作输出之间建立联系的能力。DQN不仅在多个游戏中超越了人类玩家，还创造了许多未曾设想的策略。

自动驾驶3.0采用类似的端到端纯视觉方法，输入端是连续的视频帧，输出端是驾驶行为，如图4所示。通过学习实现从视觉输入到行为输出的转换，无需人为设定条件。这种彻底端到端的自动驾驶解决方案，真正体现了人工智能的潜力，使得L3及以上级别的自动驾驶成为可能。

图4 自动驾驶3.0

自动驾驶从1.0到3.0的演变不仅提升了技术水平，更带来了对人类交通和出行方式的颠覆性改变。特别是高速和城市的NoA（Navigation on Autopilot）以及L3、L4级别的自动驾驶汽车的发展，为未来城市的安全性、便捷性和效率提升提供了新的机遇。从1.0的基础辅助驾驶到3.0的完全端到端解决方案，自动驾驶技术经历了深刻的变革。自动驾驶3.0阶段，通过端到端的视觉语言建模方法，实现了驾驶行为的自主闭环，大大提升了系统的自主性和环境适应性。

人类思维中的快思维，即本能与直觉，在自动驾驶中具有重要意义。快思维的特点是依靠视觉输入和直觉反应，约占我们日常活动的95%。人类的视觉主要依靠可见光，而自动驾驶系统可以通过传感器（雷达、激光点云、毫米波雷达）扩展这种感知能力。视觉传感器输入一帧帧的图像，输出则是轨迹或路径数据。

在端到端自动驾驶系统中，输入输出之间隐含着大量信息，包括长期记忆和推理过程。这些都需要借助语言大模型来实现，因为语言模型中包含了人类的常识和专业知识。自动驾驶系统必须具备这种知识，才能做出正确的决策。

语言不仅限于文本，还包括视觉和语音。这些都可以看作是不同的语言模态，因为它们都能表达明确的语义。交流的核心在于语义传达，即我们理解彼此的意思。无论是通过文本、图像还是语音，只要能准确传达语义，都是有效的交流方式。这种多模态的语言表达在自动驾驶中至关重要。例如，通过视觉传感器获取环境信息，通过语音指令进行交互，这些都是自动驾驶系统需要处理和理解的内容。

自动驾驶系统的核心在于理解和处理语义信息。这些语义信息包含物体的属性及其关系，内涵指的是同一物体的共性部分，而外延则是不同类别物体之间的差异性。视觉传感器捕捉的图像能够传递丰富的语义信息，例如辨识行人、车辆、斑马线、交通信号灯等，并理解它们之间的关系。这种语义理解是进行正确决策和规划的基础。

多模态大语言模型的发展可以分为几个阶段，如图5所示。早期的大语言模型主要是基于文本模态的，例如GPT，这类模型通过token化将文本数据转换为连续的潜空间，并在此基础上进行处理和生成。目前的发展重点是多模态大语言模型，不仅包含文本，还扩展到视觉和语音等模态，能够在同一个潜空间中表达和对齐不同模态的语义信息，实现跨模态的理解和转换。下一步的发展是具身智能，即赋予AI一个身体，使其能够在物理世界中进行交互，具备移动和操作能力，从而与周围环境和其他智能体进行动态交互。

图5 通用人工智能的迭代演化路径

具身智能的引入使AI能够通过实际的物理交互来学习和适应。这样的智能体不仅能够进行高级别的语义理解，还能在真实环境中进行操作和决策。例如，AI在驾驶过程中能够通过视觉和其他传感器感知环境，并做出相应的驾驶决策。多模态认知不仅限于视觉和语音，还包括触觉和动作等感知数据，这些数据通过嵌入和投影技术转化为连续的潜空间，统一进行处理和学习，实现多模态的协同工作。

通用人工智能的未来发展方向在于实现多模态、多任务、多领域的统一智能系统。具身智能的引入将使AI能够在物理世界中不断学习和进化，通过与环境和其他智能体的动态交互来获取知识和技能。这种智能系统不仅能够在特定任务上超越人类，还能够在多个领域和任务中展现出强大的适应性和智能水平。例如，在复杂的驾驶环境中，具身智能可以通过不断的实践和学习，逐步提高其驾驶技能和决策能力，最终实现安全、高效的自动驾驶。

GPT (Generative Pre-trained Transformer) 是一种生成式语言模型，主要通过自回归方法进行生成和解码。生成式模型的重点在于生成的次序，因此解码过程需要依赖编码阶段。OpenAI 的 GPT 是一个典型的例子，其模型质量较高，部分原因在于其信奉和追求规模规模定律。尽管这一点存在争议，但许多高质量模型确实体现了这一理念。

单模态文本语言模型，如 GPT-4，展示了显著的改进和变革。例如，以前的机器学习或人工智能在处理文本时，仅仅能匹配和对齐，但不能真正理解文本内容。而现在的 GPT-4 能够很好地理解文本，例如复杂的小学数学应用题，能够分解问题和任务。其关键在于利用语言模型和世界知识的学习，将许多 token 之间的关系和属性进行聚合和连接，从而具备了理解和生成文本的能力。

从单模态文本模型到多模态模型的转变标志着语言模型的一个重大进步。早期的多模态处理通常将其他模态转换为文本，然后进行嵌入变换。而现在的多模态模型能够直接处理输入的数据，无论是视频还是语音，通过 token 化来实现。多模态模型通过语义对齐，实现了视听觉语言思维，扩展了视觉、听觉和语音的交互能力，模拟了人类智能行为中的视听觉语言思维。这种能力使模型能够通过简单的文本提示生成复杂的视频内容，补充大量的背景信息和细节，如图6所示。

图6 原生多模态大型语言模型

在自动驾驶领域，原生的多模态视觉和动作模型尤为重要。端到端的视觉语言动作大模型可以通过视觉输入来生成相应的动作。例如，视觉输入进来描述环境，输出的则是车辆的驾驶动作。这种模型强调视觉语言思维，通过看到一个物体马上产生相应的动作。

多模态模型还需要兼顾通用和专用模型，通用模型提供基本的多模态处理能力，而专用模型则提供特定领域的知识，例如通过知识图谱构建的专业数据库。原生的多模态理解能力对于自动驾驶的意义在于能够结合每帧图像的文本描述和环境理解来进行决策和控制，实现更好的感知和理解能力。即使在自动驾驶 2.0 阶段，通过对环境的深度理解，模型仍然可以做出更好的决策与控制。

多模态理解在自动驾驶领域带来了根本性的变化，使车辆能够对环境进行更加全面和深入的感知和理解。这不仅包括对障碍物的识别和理解，还涉及对自身状态、道路标志和交通信号的认知。通过整合图像、点云、视频、语音和文本数据，实现跨模态的语义对齐，各模态可以互相解释同一事物或事件，增强整体感知与认知能力。

主动感知与规划在自动驾驶中至关重要。不同于被动感知，主动感知是有选择性的，根据需要感知特定的环境信息。规划包括行为规划和任务规划，前者涉及车辆的路径选择和动作决策，后者涉及任务执行的具体步骤。这两者相辅相成，规划基于感知的信息，而感知也受到规划的影响。

多模态大模型通过视觉输入生成相应的动作，这对自动驾驶有重要意义。结合多模态大模型和检索增强生成（RAG）技术，可以对场景进行深度理解，从而实现更精确的感知和预测。多模态大模型的架构包括基础模型、专用模型（知识图谱构建的专业数据库）和嵌入层（用于模态转换）。多模态大模型在自动驾驶中的下游任务包括感知、导航、预测和决策等。这些任务可以通过全参数微调、部分参数微调和提示词微调等方式进行优化。结合Bird's Eye View (BEV)和Transformer技术，可以提升模型在环境感知、障碍物检测和路径规划等方面的能力，如图7所示。

图7 AI自动驾驶大模型与下游微调任务

二、以路径规划为中心

在自动驾驶系统中，感知空间和动作空间是两个关键的组成部分。感知空间涉及对环境的理解，包括障碍物识别、道路标志等；而动作空间则涉及实际的行为产生和决策执行。这两个空间相互作用，形成了自动驾驶系统的核心功能。然而，我们需要思考的是：在这两个空间中，哪个应作为主要中心？

从传统的角度来看，大多数研究关注的是从感知空间到动作空间的逻辑，即先进行环境感知，再进行动作规划和执行。这种顺序是基于感知数据生成相应的行为。然而，从另一个角度看，动作空间也可以反向影响状态空间，通过主动感知来优化感知策略和决策过程。因此，选择哪个空间作为中心，实际上取决于系统的需求和具体应用场景。

复杂的逻辑推理是实现有效感知和决策的关键。空间转换可以视为一种复杂的逻辑推理过程。在这个过程中，大型语言模型可以发挥重要作用，通过视觉和语言智能实现多模态的交叉理解和推理。这样，可以实现从感知到动作的高效转换，提升系统的智能水平，如图8所示。

图8 基于LLM的复杂的逻辑推理

为了增强复杂的逻辑推理能力，我们可以利用外部知识库、搜索工具和领域知识。这些工具能够提供额外的背景信息，支持更深入的理解和推理。例如，通过检索增强生成技术，结合通用多模态大模型，可以进一步提升推理能力。此外，提示词工程和思维链技术也能有效增强推理能力。

三、端到端纯视觉交互式多模态智能体：自动驾驶3.0 与人形机器人的实现路径

在自动驾驶3.0时代，我们不仅需要开发多模态的自动驾驶大模型，还要进一步发展成具有交互能力的智能体。这种智能体将融合视觉和语义的多模态理解，并具备在交互过程中展现更高智能水平的能力。

交叉理解是指将不同模态的信息在语义层面对齐。例如，通过先进的模型，可以将不同类型的输入归纳为相同的语义类别，使得系统能够互相补全信息，增强读图能力。同时，交互式智能体强调在真实物理空间中的智能体与其他智能体、环境以及人类的互动。通过这种互动，智能体能够利用深度强化学习提升行动能力，甚至超越人类水平。这种交互不仅提升了智能体的决策和行为策略，还能使其在复杂环境中表现得更加出色，如图9所示。

图9 AI领域中交叉与交互

智能车在自动驾驶中扮演着核心角色，需要与周围环境及其他智能体进行有效的互动。通过在车道级地图中提取交通元素，智能车可以优化其轨迹预测和补全。例如，当智能车发出转向信号时，其他车辆的反应（可以通过交互得到优化，进而实现更高效的道路使用和交通流动。

智能体在时间维度上可以视为轨迹数据，这些轨迹数据必须符合物理学规律的连续性。这种连续性使得我们能够进行轨迹的预测和补全。当遇到部分或完全遮挡时，可以利用轨迹数据进行有效的预测，从而超越人类感知的局限，实现对环境的更准确预测。

交互不仅涉及环境适应，还包括智能体的主动探索。通过在虚拟环境中进行训练，可以显著提高智能体的效率和安全性。这种方法避免了在真实世界中进行高风险试验，减少了实验成本，同时更高效地提升了智能体的性能。总的来说，未来的自动驾驶系统将依赖于多模态的视觉理解、强大的交互能力以及智能体的主动学习，以实现更智能和更安全的自动驾驶。在实现高级智能体时，虚拟世界的模拟和深度强化学习的结合显得尤为重要。传统的学习方式往往受限于物理世界中的高成本和低效率，而虚拟环境的应用可以极大地提升智能体的学习效率和能力。

人类在现实世界中的学习过程通常受到时间和资源的限制。例如，一个工人在一生中可能只能专注于一项技能，效率较低。然而，智能体在虚拟世界中进行学习和探索，可以突破这些限制。虚拟世界的高效交互学习使得智能体能够在短时间内掌握多种技能，实现比人类更强的能力。这是因为虚拟世界可以模拟各种边缘事件，智能体可以在其中进行大量的主动探索，从而获得更全面的学习体验。

构建一个完整的数字孪生系统，或者说一个虚实平行世界，虽然费用高昂，但它对于提升智能体的能力至关重要。数字孪生系统需要模拟现实世界的复杂性，包括物体的CAD造型、它们的相互关系以及动力学属性，如图10所示。这种系统不仅需要视觉上的逼真，还要求在运动学和动力学上的一致性。

图10 世界模拟器与深度强化学习的作用

近年来，像生成视频技术的发展，为这一领域带来了新的希望。通过简单的文本提示，可以生成符合物理学规律的合成视频数据。这种技术可以增强训练数据，提升深度学习模型在复杂环境中的表现，最终实现最优策略的交互式探索。

智能体在虚拟世界中的表现，不仅能模仿人类行为，还能超越人类的能力。虚拟环境允许智能体同时处理多种任务，例如它可以在虚拟世界中既是泥瓦工，又是铁匠，甚至在某些领域超越人类。这种全面的模拟和训练，使得智能体能够在真实环境中表现得更加优秀。

深度强化学习在虚拟环境中能够快速提升智能体的行动能力。智能体在虚拟世界中进行交互，进行自主学习，能够快速调整策略和行为，实现比人类更高水平的智能行为。通过将虚拟世界的经验转化为现实世界的应用，智能体能够有效地完成复杂任务，并在某些领域超越人类水平。

在开放域环境中实现强化学习的自主探索面临诸多挑战，尤其是在如何在复杂且未定义的环境中进行有效的学习和决策方面。一个核心问题是如何定义智能体的智商，并与人类智商进行比较。这不仅有助于理解智能体是否能够达到或超越人类的认知水平，还关系到通过交互式学习是否能实现这一目标。为了实现这种能力，智能体需要在大量的实验和模拟中不断调整和验证。

另一个重要问题是如何在连续的潜空间中进行事件轨迹的学习。这包括在这种空间内生成最优的交互信息，以实现有效的学习。这种学习不仅要求理解事件的感知，还需要生成轨迹并进行动态的、开放域的交互式学习。如何在面对边缘事件和长远问题时保持学习的连贯性和有效性，是这一过程中必须解决的关键问题。

关于视觉智能的涌现，值得关注的是，是否存在一种情况，智能体在经过大量训练后能够自动理解和处理新的视觉数据，而无需进一步的示例或监督。这可能表明视觉智能的涌现，意味着智能体能够在无需人工标注或额外训练数据的情况下，自行理解和处理类似的图像。

四、高阶NOA 与 L3/L4 自动驾驶规模化产业落地分析

高级的NOA与L3、L4自动驾驶的规模化产业落地正成为当前的焦点。L2++的自动驾驶技术已经实现了商业化应用，成为智能电动汽车的标配，用户和市场对其认可度不断提高。无论是新能源汽车还是传统燃油车，L2++的NOA已经被广泛应用，提升了驾驶的便利性和安全性。

然而，L3和L4自动驾驶技术的商业化进程仍处于测试阶段。例如，武汉的萝卜快跑网约车和特斯拉的FSD V12等项目已经开始进行商业化运营，引起了广泛的社会关注。这些技术曾被认为距离实际应用还有很长时间，但现在已经开始影响到我们的生活和就业。

L3和L4自动驾驶的主要挑战包括进一步降低接管率、规范化规模化操作以及提升用户体验。与L2++的NOA不同，L3和L4的技术更加先进，L3级别的自动驾驶需要驾驶员保持一定的监督，但主要依赖自动化系统，而L4则进一步推进了无人驾驶，理论上不需要任何形式的安全员。

L2++和L3的区别在于法律责任的划分。L2++阶段，安全员仍需承担主要的法律责任，而在L3阶段，机器的责任逐渐增大，安全员的角色变为辅助。L4阶段则是一个颠覆性的技术进步，不仅在技术层面上突破了传统限制，也在产业战略上具有重要意义。L4的实现标志着无人驾驶技术的成熟，将对整个行业产生深远的影响。

技术路线的选择在自动驾驶领域尤为重要，尤其是面对边缘事件的处理、环境适应性提升以及自主性增强的需求。大模型技术提供了一个历史性的机遇，使得端到端的解决方案成为可能。这种方法通过学习大规模的数据，能够应对各种复杂情况，而不必穷举所有可能的漏洞或情况。这意味着，尽管模型和代码可能变得更简单，但对数据的需求却显著增加。

当前，大模型在处理海量数据方面展现出强大的能力。例如，GPT在不到三年的时间内就能学习并处理大量的文本数据，远超人类的学习能力。这种能力的实现离不开高效的自建模型学习和强大的计算资源。虽然大模型的开发和应用依赖于大量的数据，但其高效的学习能力使得它能够模拟和处理复杂的语料，逐步具备初步的逻辑推理能力。

然而，AI技术的产业化部署面临着高预算要求，特别是在高阶视觉和长时空上下文训练方面。自动驾驶的开放环境和长时间序列要求高效的训练方式，同时需要综合运用大语言模型、多模态视觉模型和通用世界模拟器。通用世界模拟器能够生成合成视频数据，从而补充训练数据，但这也需要大量的计算资源。虽然大模型使得代码和模型变得更加简洁，但对数据的需求和计算资源的消耗仍然很大。

端到端的视频动作解决方案对数据的需求极其高，需要大量的短视频和动作数据来进行有效的训练。这种解决方案的实现依赖于极大的AI算力，特别是在联合预训练阶段。在这一阶段，通常需要百万量级的短视频数据。短视频因其信息量大且重复较少，适合用于大规模数据处理。预训练阶段是最为算力密集的，因为涉及到处理大量数据并建立初步模型。

在进行模型微调和测试端的规模化部署时，依然需要大量的算力。例如，在整个北京市或全国范围内进行产业化部署时，需要的算力和能耗都是巨大的。经济区训练可能需要达到几十万的AI大算力规模，这对硬件资源的需求非常高，如图11所示。

图11 端到端视觉动作大模型

除了算力，数据的采集和清洗也是关键。为了构建有效的数据和数据闭环，需要处理百万量级的短视频和相应的动作序列数据。这些数据包括真实的视频数据和合成的视频数据。合成数据的比例可能随着技术的发展而增大，这要求在数据处理过程中进行精确的分割和标注。

特别是在视频数据处理中，需要精确的掩模分割，以确保每个视频帧中的物体被准确标注，如图12所示。虽然自监督学习可以减少对人工标签的依赖，但初期的人工标注仍然是必要的。数据标注经历了人工、半自动和全自动处理过程，以确保高质量的分割和标注结果。例如，车体和建筑风格的掩模分割需要特别精确，而行人等非规则形体的掩模分割则更具挑战性。

图12 数据采集与清洗

特斯拉早期就专注于自动驾驶数据的积累，并且在全球范围内获取了大量的真实短视频数据。截至2021年，他们的数据量已经超过10亿英里（约16亿公里）。虽然这一数据量庞大，但数据的质量和标准仍然是一个关键问题。许多车企尽管已经开始积累数据，但在高质量数据的收集和处理上仍面临挑战。

企业的核心竞争力越来越依赖于数据，而不仅仅是算力。尽管算力可以通过采购或自主研发获得，例如特斯拉已经在自建芯片和算力方面有所突破，但数据的获取、处理和质量控制显然更加复杂且重要。高质量的数据不仅是训练模型的基础，还直接影响到系统的准确性和可靠性。

在视觉神经网络的应用中，数据的质量和多模态理解能力至关重要。自动驾驶系统需要处理的图像数据不仅仅是视觉信息，还涉及到听觉、语音等多模态信息的交叉理解。这种多模态感知能力对于精确的动作规划和环境理解非常重要。系统需要在开放环境中进行有效的时空观测和理解，以支持可靠的动作模拟和决策。

开放域问题是另一个关键挑战。开放域视觉系统需要处理各种未见过的新类别和场景，具备强大的泛化能力。智能涌现和零样本学习的研究方向在这方面展示了潜力，例如利用Transformer模型来实现更好的语义对齐和目标检测技术，从而提升对开放域的处理能力。

在自动驾驶领域，端到端视觉动作模型是核心技术之一。这种模型集成了大量的数据和算力，能够实现自动驾驶的核心功能，如环境感知、决策和控制。单车智能方案依赖于视觉系统，包括摄像头、激光雷达和毫米波雷达等设备，用于实时感知周围环境，进行动作规划和决策。通过虚拟平行世界和模拟器的结合，能够进行交互式学习和深度强化学习，从而提升自动驾驶的能力和安全性。利用合成视频数据进行训练，有助于提高系统的安全性和准确性，推动L3、L4和L5的商业化进程。

此外，将单车智能与智能路网结合的方案，包括车路云一体化，进一步提升了自动驾驶的安全性和效率，如图13所示。在这一方案中，远程安全员系统能够通过大模型进行预测和监控，从而处理多辆车的复杂场景。这种一对多的安全管理模式降低了人力成本，并推动了商业模式的规模化。大模型在云计算和边缘计算环境下的应用，使得商业化推广和规模化成为可能。

图13 单车智能+智能路网

要实现这些技术突破，还需要技术和政策的支持。技术创新需要在地面、云端或边缘进行有效的支撑，以确保系统的稳定性和可靠性。同时，政策法规的支持，包括政府的激励措施和创新支持，也是实现商业化落地的关键。建立车队行驶的安全评估体系，提升对一对多云接管的安全预测能力，将帮助安全员实现对更多车辆的安全接管，从而推动自动驾驶技术的进步和商业化推广。

个人简介

邓志东

中国自动化学会会士、理事

清华大学教授

邓志东，中国自动化学会会士，博士生导师。同时担任中国自动化学会理事（2014-现在），智能自动化专业委员会副主任兼秘书长（2003-2013），智能自动化专业委员会主任（2013-2023）等。曾任国家863计划智能机器人主题专家组组长助理（1998-2001）。在国家级科研项目的资助下，自2009年开始主持研发了4辆自动驾驶实验汽车。在深度神经网络、递归神经网络、计算神经科学、深度强化学习、环境感知、自主决策与规控等，取得多方面创新性理论与技术成果。迄今已发表学术论文超过300篇（包括TPAMI），参编书籍5部。目前的研究方向包括：人工智能（深度神经网络、深度强化学习）、无人驾驶汽车、先进机器人等。

*本报告版权属原作者所有，任何媒体、网站或个人未经授权不得转载、链接、转贴或以其他方式复制发布/发表。

END

内容供稿|学会秘书处宣传出版部

编辑|陈慧琳

责任编辑|叩颖

审核|叩颖王坛

往期文章

【明年尔滨见】新质发展，智控未来！2024中国自动化大会圆满落幕！

【活动计划】中国自动化学会2024年度会议计划一览

【CAA赛事】以赛促教，携手未来，智能技术与教育共舞

【重要通知】中国自动化学会关于标准化人才库信息征集工作的通知

【重要通知】关于开展第十届中国自动化学会青年人才托举工程项目申报工作的通知

联系我们

地址：北京市海淀区中关村东路95号

邮编：100190

电话：010-82544542（综合）

010-62522472（会员）

010-62522248（宣传出版及大赛）

010-62624980（财务）

010-82544541（学术活动）

传真：010-62522248

邮箱：caa@ia.ac.cn

中国自动化学会新媒体矩阵

微信公众号

学生分会

CAA OFFICIAL

会员服务

综合媒体

官网

微博

今日头条

视频平台

B站

微信视频号

抖音

学术平台

中国自动化学会会议

中国自动化大会

知乎

喜欢的话点击在看哟~

中国自动化学会

发布自动化、信息及智能科学领域内知识性、普及性、历史性、前沿性的文章、照片、视频等，弘扬学科文化、梳理发展脉络、传播科学知识，宣传科研成果，服务人才培养，积极推进学科普及工作，让更多的人了解自动化、信息及智能科学的过去、现在和未来。