北航/新加坡国立大学/华中科技提出自动驾驶视觉语言模型的视觉对抗攻击！

文摘 2025-01-05 10:14 上海

自动驾驶之星

点击上方蓝字关注自动驾驶之星

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

视觉语言模型（VLMs）通过增强推理能力，极大地推进了自动驾驶（AD）的发展。然而，这些模型仍对对抗攻击高度敏感。
尽管现有研究主要关注通用VLM攻击，但针对AD安全关键背景的攻击定制化研究却鲜少被关注。本文是首次设计针对AD VLMs的特定对抗攻击的第一步，暴露出这些攻击在关键领域所面临的重大风险。
作者确定了两个有效的AD VLM对抗攻击的关键挑战：文本指令的变异性以及视觉场景的时序性。为此，作者提出了ADVLM，这是专门为AD中的VLMs设计的第一个视觉对抗攻击框架。
作者的框架引入了语义不变归纳，该方法利用大型语言模型创建了一个具有统一语义内容的文本指令多样性 Prompt 库，由语义熵引导。在此之上，作者提出了场景关联增强方法，即注意力机制选择驾驶场景中的关键帧和视角，以优化通用整个场景的对抗扰动。
在多个AD VLMs和多个基准上的广泛实验表明，ADVLM实现了最先进的攻击效果。此外，实际攻击研究进一步验证了其在实践中的适用性和潜力。

1 Introduction

由于具有强大的泛化能力和内在的 interpretability，视觉语言模型（VLMs）在各种任务上表现出色，包括自动驾驶（AD）。通过使自主系统理解场景并处理自然语言，VLMs 可以作为大脑，为复杂场景下的高级推理提供有效解决方案，并实现更高效的人机交互。作为端到端自动驾驶的全新解决方案，VLMs 具有巨大的发展潜力。

然而，视觉语言模型（VLMs）存在显著的漏洞，且缺乏鲁棒性，尤其是在面对精心设计的视觉扰动，如对抗攻击时。尽管已经提出了各种攻击方法，但现有的研究主要关注通用VLMs，并未专门针对AD的特殊需求进行讨论。在像AD这样关键安全领域中识别并解决这些漏洞至关重要，因为VLMs的失败可能导致严重后果，包括事故或受到破坏的决策。

在本文中，作者迈出了研究针对自动驾驶领域中的VLM的对抗攻击的第一步。然而，将现有的通用VLMs的对抗攻击简单扩展到这种场景中，即文本指令不同但传达相同任务语义的场景，是非常具有挑战性的。作者提出了VLM针对自动驾驶的两个独特挑战如下。攻击应在各种文本指令之间工作，这些指令包含不同的短语/句子，但都表示相同的任务语义。攻击应在特定的时间序列驱动场景中工作，该场景包括多个视觉帧和视角变化。为了解决这些挑战，作者提出了_ADvLM_，这是第一个专门针对自动驾驶中的VLMs的视觉对抗攻击框架。

在文本模式中，作者提出了语义不变的诱导，其中作者构建了一个包含各种语义相同但表达方式不同的文本指令的低语义熵 Prompt 库。具体来说，作者使用一个大型语言模型从种子中生成 Prompt 变体，然后根据语义熵对这些变体进行精炼，以促进表达方式的多样性。在视觉模式中，作者引入了场景相关的增强，即根据模型注意力选择驾驶场景中的关键帧/视角，然后进一步根据关键帧优化对抗扰动，从而使攻击可以泛化到整个场景。这样，作者可以在扩大的文本和图像输入空间中生成对抗攻击，从而产生可以保持有效且诱导目标行为的攻击，这些攻击可以在自动驾驶领域的VLMs中的多种指令和时间序列视图中保持有效。

为了证明其有效性，作者在多个数据集上的多个VLMs（深度学习模型）上进行了广泛实验，作者的攻击在其他 Baseline 中取得了显著的最终得分减少（在白盒和黑盒设置中分别降低16.97%和7.49%）。在模拟环境CARLA的闭环评估中，ADvLM也证明最为有效，实现了2.954的车辆碰撞得分。此外，作者还对物理车辆进行了实际研究，以进一步展示作者攻击的潜力。

作者的贡献如下：

作者提出了 ADvLM，这是专门针对AD的第一个对抗性攻击，解决了AD中固有的独特挑战。
作者在文本域引入了语义不变归纳，在视觉域引入了场景关联增强，确保了攻击在不同指令和连续视点下的有效性。
广泛实验表明，ADvLM 超越了现有方法，在实践中具有很高的潜力。

2 Related Works

针对视觉语言模型的对抗攻击. 随着视觉语言模型的广泛部署和出色的多模态问答和推理性能，其鲁棒性[21, 29, 58]近年来逐渐引起关注。在作者之前，研究行人已经探索了针对通用视觉语言模型的对抗攻击。由于视觉语言模型的多模态性质，大多数对抗攻击涉及同时应用于图像和文本模态的扰动。借鉴视觉任务中的对抗攻击，这些方法通常依赖于端到端可微分梯度。首次提出了针对视觉语言模型的多模态对抗攻击，为后续开始探索更实用的黑盒设置奠定了基础。研究行人通常追求引入最小扰动的同时具有强烈影响的攻击方法，导致一些研究仅关注攻击视觉语言模型的视觉模态。表明仅使用基于图像的扰动就可以成功攻击特定目标。针对文本模态的对抗攻击在视觉语言模型中不常见，因为它们主要关注大型语言模型。

尽管针对通用VLMs的各种对抗攻击技术不断发展，但在AD安全关键领域，VLMs的鲁棒性缺乏针对性的方法。

自动驾驶中的VLMs 近年来，越来越多的研究关注VLMs作为解决AD任务的一种方式，通过集成视觉和语言输入。这些模型在感知、推理和规划等任务上表现出色，对AD系统至关重要。自动驾驶VLMs的任务主要可以分为两类。第一类是VLMs的核心功能，即VQA，如经典的Reason2Drive [42]，LingoQA [41]和Dolphins [38]。这些奠基性工作全面探索了VLMs在AD中的增强作用，尤其是在各种驾驶相关任务中的细致推理和解释能力，如场景理解、行为预测和对话。第二类是驾驶规划或控制，与AD操作密切相关。GPT-Driver [40]，Driving with LLMs [3]和MTD-GPT [31]开创了VLMs在驾驶规划方面的改进。然而，这些工作仅考虑了开放环设置下的驾驶问题，忽视了累积误差和端到端解释性问题。相比之下，LMDrive [45]是第一个在闭环设置中提出基于VLM的驾驶方法，解决了这些关键限制。其他方法将VQA和规划/控制集成到VLM框架中，为AD提供了一种更全面的方法。DriveLM [46]，DriveMLM [50]和DriveGPT4 [55]都超越了基本对话，实现了更精细的驾驶控制和决策推理。

本文从三个类别中分别选取具有代表性的模型，进行全面 robustness 分析。

3 Problem and Motivation

对VLMs的攻击，针对AD的VLMs的对抗性攻击旨在通过引入精心设计的扰动来操纵模型的输出。具体而言，一个敌手在良性 Query （, ）上应用对抗性扰动，其中表示AD中的特定视觉输入序列，表示多个帧而不是单个图像。在这里，是模型所有可能视觉输入的领域。这导致了一个对抗性 Query ，其中表示对抗性扰动函数。的目标是使VLM， Token 为，输出一个针对性的或不受欢迎的响应，而不仅仅是预期的良性响应。这种操纵在对抗性输入下，通过最大化响应的可能性来正式定义：

在本研究中，作者主要关注视觉域中的攻击，确保生成的扰动在同一序列中保持一致。表示概率函数，其中是输入 Query 域，包括视觉输入和文本输入，而是响应域。

挑战与目标

常见的VLM对抗攻击主要针对固定输入（即特定的文本和视觉输入），但AD引入了独特的挑战，需要针对这些挑战采取定制的方法才能有效攻击。作者在图2中确定了AD中有效对抗攻击所必需的两个关键挑战，这些挑战使得这种攻击与针对通用VLMs的攻击有所不同。

文本指令的变异性。AD患者通常使用不同文本指令，使用相同的任务但不同的短语，例如"turn left at the intersection"和"turn left ahead"。换句话说，这些指令以不同的短语显示，但传达相同的语义和意图。为了确保稳定的攻击，视觉扰动必须在不同语义等价的 Prompt （从原始 Prompt 派生）上保持有效，导致VLM在所有在中传达相同命令的 Prompt 上始终产生错误的响应。

时间序列视觉场景的特性。在驾驶过程中，车辆的视角会频繁变化，这是由于运动和环境因素的影响。自注意力模型（AD）必须适应来自运动和时间依赖性的视觉变化。与静态任务不同，针对AD VLMs进行攻击需要对其进行扰动，以在视角和图像质量变化的同时，对一系列帧产生可靠的影响。用表示来自中原始帧生成的不同视角的集合，捕捉时间序列视觉场景中典型的帧序列。这种表述确保了在AD环境中的动态视觉序列上，对抗攻击的有效性。

总之，对手方应考虑生成能够使AD VLM一致产生目标响应的对抗扰动。

在中，表示一个传递相同语义指令的特定 Prompt ，表示从生成视角集合中选择的帧。函数在中的所有帧上均匀应用扰动。以这种方式优化确保了在变化的角度和 Prompt 表述下，对抗攻击始终误导模型，从而增强了在 AD 场景中的鲁棒性。

威胁模型敌方的能力仅限于向图像数据中添加噪声，因为干扰摄像机的外部输入比访问语言模块的内部数据更容易。由于AD的顺序性，敌方在整个图像序列上应用均匀噪声，在每个序列中保持一致的扰动。

敌方的知识因场景而异，包括两种主要的AD威胁模型：白盒和黑盒。在白盒模型中，敌方具有模型的完整架构、参数和数据流访问权限，允许针对模型的漏洞进行有针对性的利用。相反，黑盒模型限制敌方只能进行间接交互，无法洞察模型的内部工作原理，并需要依赖外部观察。作者在这些场景下通过开环和闭环实验评估ADvLM（参见第5.2节和第5.3节）。

4 Approach

为解决上述挑战，作者提出了 _ADvLM_，该方法利用提出的语义不变归纳和场景关联增强（如图3所示）。

Semantic-Invariant Induction

在语义模式下，作者引入语义不变推理，构建一个低语义熵（LSE） Prompt 库，其中包含具有一致语义意图的多种文本指令。具体而言，这种方法利用语义熵[6]来优化初始种子生成的 Prompt ，提高表达多样性，同时保留相同的底层含义。

作者采用GPT-4V [1]来为每个输入生成语义等价的变体。对于每个生成的，作者计算其语义熵，旨在实现低熵且增强表达多样性。为了引导这一过程，作者引入一个惩罚函数，平衡语义一致性和表达多样性：

其中，利用 Word2Vec 嵌入式 [4] 和余弦相似度计算表达式相似性：

当表示的词向量嵌入时，超参数控制了熵减少和语义对齐之间的权衡。然后，定义的LSE Prompt 库如下：

这种方法确保了表达多样性，同时最小化了语义熵，从而创建了一个强大的文本模态，以支持在各种AD指令下的有效对抗攻击。

Scenario-Associated Enhancement

在视觉模态中，作者引入了关联场景增强（SAE）以提高在AD场景中跨文本指令和视觉帧的攻击鲁棒性。基于模型注意力，这种方法关注于在驾驶场景中识别出的关键帧和视角。攻击通过在LSE Prompt 库中迭代优化这些关键帧的对抗扰动，实现了对驾驶场景的泛化。

为了确保在不同的视角下都能保持鲁棒性，作者设计了基于视角变换的图像级损失函数，其中每个视觉输入序列都应用了。这个函数确保了扰动在各种视觉视角下仍然有效。的定义如下：

表示低语义熵 Prompt 集，确保在各种文本输入下具有鲁棒性。函数选择具有相同语义意义但不同表述的 Prompt 。

为了识别关键帧，作者使用一个迭代基于注意力的选择过程，该过程在跨帧注意力图的多样性上最大化，从而增强场景覆盖。从序列中的第一帧开始，作为参考。作者计算每个未选中帧与所选帧的平均注意力图之间的相似度，使用一种相似度度量方法（即SSIM的平均值和PCC的平均值）。对于每个候选帧，作者计算：

其中，衡量相似度，是所选帧的集合。下一帧通过最小化与集合的相似度来选择：

这段内容翻译为：该选择将持续，直到达到所需的帧数，确保每个帧都引入独特的视觉信息。

最后，作者应用一个分场景损失来优化这些选择的帧上的扰动，以增强在不同环境下的泛化能力：

Overall Attack Process

该攻击的主要目标是最小化损失，确保扰动在文本和视角变化的情况下仍然有效，从而扩大对抗空间并提高鲁棒性。组合损失函数定义如下：

λ控制场景信息的贡献。为了在图像 Level 和场景 Level 损失之间平衡影响，作者将超参数λ设置为0.4。

5 Experiments

Experimental Settings

作者选择了3种最新的基于VLM的AD模型作为攻击目标，包括DriveLM [46]，Dolphins [38]和LMDrive [45]。此外，作者还评估了作者的攻击在4种通用VLMs上的表现，包括MiniGPT-4 [68]，MMGPT [8]，LLaVA [30]和GPT-4V [1]。

评估数据集。作者在开环和闭环设置下评估作者的方法。对于开环条件，作者使用DriveLM-ADvLM 和Dolphins-ADvLM 数据集，这些数据集扩展自DrivelmuScenes [46]和Dolphins Benchmark [38]。对于闭环条件，作者使用LangAuto-Tiny基准场景[45]，CARLA模拟器根据这些场景生成输入数据。

评价指标。对于DriveLM和Dolphins，作者按照[46]和[38]中的方法计算语言指标和GPT-Score的加权平均值。对于闭环条件，作者使用CARLA排行榜提供的指标[5]。考虑到AD系统对语言质量的重要性较低，作者降低了语言评分的重要性，并将其他指标调整以在 DriveLM 的评价中创建新的最终得分。表示越低越好，而表示越高越好。

攻击 Baseline 。作者选择2种经典的对抗攻击，包括FGSM[9]，PGD[39]，以及2种常用的VLMs攻击（AttackVLM[66]，AnyAttack[61]）进行比较。

实现细节对于作者的 _ADvLM_，作者实际设置，，和。所有代码都使用PyTorch实现，实验在NVIDIA A800-SXM4-80GB GPU集群上进行。

更详细的实验设置信息可在补充材料中找到。

White-box Attack

作者首先在开环（静态、带有预定义输入的控制环境）和闭环（动态、具有实时反馈和模型适应的互动环境）中进行白盒攻击。

开放环评估。对于关键帧的数量，作者为Dolphins模型设置，该模型将视频帧作为输入。而对于单张图像操作的DriveLM，作者使用。攻击结果如表1所示，由此得出以下观察。

开环 ADvLM 方法在不同模型上实现了显著更好的性能（在 DriveLM 上达到最大最终得分下降 16.97%，在 Dolphins 上达到 9.64%）。

作者观察到，AttackVLM和AnyAtt与其他 Baseline 相比表现较差。作者推测这可能是因为这些方法主要针对黑盒攻击而设计，导致在白盒设置下的效果较低。因此，作者在5.3节中进行了额外的黑盒攻击实验。

在海豚的评估中， ADvLM 在时间任务上的性能略低于PGD。详细实验表明，调整超参数λ可以有效提高时间任务上的性能。更多信息请参见第5.4节。

值得注意的是，在DriveLM的评估中，ADvLM 将语言得分降低了13.20%，这比PGD方法实现的17.96%的下降要小。这并不表示攻击效果较弱；相反，由于语言得分反映了语言质量，得分较高的得分可能会使驾驶员更难检测到攻击，从而可能延迟他们的干预。作者在补充材料中提供了详细解释。

闭环评估。对于闭环评估，作者使用了LMDrive提供的预训练模型[45]。由于LMDrive在单个图像上运行而不是连续帧，作者设置。

评估 Pipeline 遵循以下步骤：

1.启动CARLA 0.9.10.1的Docker版本。

启动带有指定 Agent 的CARLA排行榜。
启用驱动模式并开始评估。
由于交通流和决策的变化，结果可能不稳定；因此，作者通过多次试验平均结果。每个实验设置运行了五次，并报告这些重复的平均值作为指标。评估结果如表2所示。

作者的 ADvLM 方法在所有其他攻击方法中表现出色，实现了违规罚款的 23.88% 减少，同时与车辆碰撞和布局的冲突有所增加。值得注意的是，_ADvLM_ 在非铺砌道路违规方面的表现比 PGD 低 0.5%，这可能是因为 PGD 对特定边界条件更为敏感。然而，与 ADvLM 在其他指标上的整体改进相比，这一差异可以忽略不计。

此外，作者在图4中展示了在Town 03 Route 26进行的实验中的视觉化结果。在攻击之前，车辆正常行驶；然而，在攻击之后，它驶入了一个加油站，这带来了重大的安全风险，并强调了潜在的安全漏洞。

Black-box Evaluation

黑盒设置。 与白盒设置不同，在白盒设置中，攻击者具有模型详细信息的全访问权限，而在黑盒场景中，攻击者仅限于模型输入/输出，而无法了解模型的内部结构。作者的黑盒评估是在开环实验中进行的，作者在DriveLM [46]和Dolphins [38]的模型和数据集上以新方式进行自适应，以实现基于迁移的攻击。具体而言，作者使用Dolphins作为受害者模型，DriveLM作为替代模型，应用Dolphins-ADvLM 数据集和白盒Dolphins进行攻击生成，并在DriveLM上执行攻击。在黑盒设置下，同样的方法也用于DriveLM。作者使用基于迁移的方法（如ADvLM, FGSM和PGD），同时直接实现AttackVLM [66]和AnyAttack [61]，因为这些方法天生就是为黑盒环境设计的。

结果分析。 黑盒评估结果如表3(a)和表3(b)所示，使用了第5.1节中概述的相同指标。研究发现，在DriveLM和Dolphins模型中，ADvLM 始终比其他方法获得较低的最终得分，在DriveLM上的降幅达到7.49%，在Dolphins上的降幅达到3.09%。这表明在不同数据集上，ADvLM 都显著降低了模型性能，从而证明了在黑盒设置下，ADvLM 的高效性能衰减，使其成为基于迁移的对抗攻击的强健方法。

攻击通用VLMs。作者还针对通用VLMs（例如，DriveLM-_ADvLM_with攻击噪声生成自DriveLM [68]，MMGPT [8]，LLaVA [30]，以及GPT-4V [1]）进行了实验（即，MiniGPT-4 [68]，MMGPT [8]，LLaVA [30]，以及GPT-4V [1]）。结果，如表3（c）所示，并通过Final Score测量，表明尽管通用模型在AD任务上表现良好，但与专门为AD设计的VLMs相比，性能存在显著差距。在攻击效果方面，ADvLM，AttackVLM和AnyAtt的冲击最大，表明作者的方法有效地破坏了通用VLMs。

Ablation Studies

扰动预算和步长 作者进行了一项剥离研究，以探索不同攻击设置的影响。首先，作者呈现了在不同迭代步骤（即3、5、10、20、50、100）下，在DriveLM-ADvLM和Dolphins-ADvLM上运行的_ADvLM_攻击的结果（即固定扰动预算和步长）。通常，攻击强度随着更多的迭代步骤增加，如图4（a）所示。此外，作者在三个模型上测试了不同的扰动预算（即0.01、0.02、0.05、0.1、0.2、0.4），其中且，并对DriveLM和Dolphins使用Final Score评估性能，而对于LMDrive，作者使用Infraction Score。结果表明，随着和的增加，攻击的有效性提高，但在且时，攻击效果趋于稳定。因此，作者选择了这些值。

语义不变归纳。 作者进行了不同数量 Prompt 的实验（即1，2，3，4和5个 Prompt ），迭代步长n=5，收敛阈值ε=0.1。结果如图5（a）所示。 Prompt 数量增加时，攻击效果改善。当 Prompt 从1增加到3时，DriveLM和Dolphins的Final Score从57.14%和33.99%分别下降到52.38%和33.03%。然而，在 Prompt 超过3个之后，这种改善变得微不足道， Prompt 为5时，准确率仅轻微降低到50.0%和32.88%。作者认为，三个LSE Prompt 足以充分捕获进行有效攻击所需的语义信息。

相关的系列增强. 作者进行了没有变量的视角技术的实验，使用与之前描述相同的设置，但省略了变量视角方法。结果如图4(b)所示。数据显示出相似的趋势，但与前一次实验相比平均增加了2.12%。实验结果验证了变量视角的有效性。

超参数λ。 作者使用Final Score评估λ对海豚的影响，将λ从0.1到0.9以0.1的步长进行变化。最优攻击性能出现在λ=0.4，尽管某些任务（如时间）在λ=0.6时达到峰值。对λ的这种敏感性突显了λ在调整跨任务对抗性影响中的作用。

关键帧数量的影响。作者使用Final Score评估这种影响，将从1调整到16，每次增加1，因为Dolphins中最长的场景由16个帧组成。结果表明，在时，攻击性能最优，为39.54，这是实验中观察到的最低值。对于其他值，作者观察到性能较差，例如在时为42.31，在时为41.67，这强调了6帧提供了一种平衡且有效的表示，以产生最强的对抗性影响。

Discussion and Analysis

分析文本指令变化的影响 作者进行了实验来评估文本变化对攻击效果的影响。使用包括标准 Prompt 和一组语义等价扩展 Prompt 的DriveLM-_ADvLM_数据集，作者在不同的文本条件下评估了四种攻击方法（即_ADvLM_、PGD、AnyAttack和AttackVLM）。评估指标为最终得分，其中扩展数据集通过将每个测试案例扩展到包括3和5个语义相似的 Prompt ，分别进行测试，并将最终结果计算为它们的平均值。如表4所示，ADvLM 在扩展数据集中始终保持了较高的攻击有效性，而其他方法在文本变化增加时性能明显下降。

本文节模型注意力分析部分通过定性及定量研究，深入理解 ADvLM 的运作机制。具体而言，作者对比了在攻击前后 DriveLM 和 LMDrive 的注意力图。如图6(a) 所示，模型在 Prompt 和视角初始时，关注相似的区域。而在应用 _ADvLM_（见图6(b)）后，这些注意力图发生显著变化。在定量方面，SSIM [51] 和 PCC 指标显示在攻击前， Prompt 和视角间的注意力相似度较高（DriveLM 为 88.70% 和 88.27%；LMDrive 为 86.16% 和 90.83%）。在引入 ADvLM 后，这些值显著降低（DriveLM 为 26.74% 和 14.58%；LMDrive 为 37.45% 和 24.96%），证实 ADvLM 有效扰乱了稳定的注意力模式。

6 Case Study for Real-World Attacks

在本节中，作者在实际AD车辆上测试作者的 ADvLM，以进一步揭示潜在风险。

实验设置：本实验使用了一个带有PIXLOOP-Hooke底盘的自动驾驶车辆[43]。该车辆配备了多个感知和运动模块，包括一个RGB相机LIUSB30-AR023ZWDR，用于执行VLM（例如，海豚）提供的导航命令。作者使用高级命令如“直行”来通过底盘翻译为具体的驾驶模式控制响应。向VLM发出“直行”的 Prompt 。图7（a）和图7（b）中显示的环境和第一人称视角图像。在日光条件下，通过 ADvLM 直接将实时对抗噪声添加到输入，并重复实验10次，有无攻击两种情况。

结果与解释。在受到 ADvLM 影响的试验中，车辆在尝试中的70%偏离了预定路线，而在干净的试验中这一比例为0%。正常和偏离驾驶图像如图7(c)和图7(d)所示。对记录的数据包进行分析表明，在 ADvLM 的攻击下，RGB摄像头未能捕捉关键的道路特征，导致偏离路线的指令。在7次成功诱导的偏离中，只有2次在0.5秒内产生了警告和刹车响应，这明显短于人类的平均反应时间2.5秒[44]。这些发现突显了 ADvLM 对实际AD系统的实际风险。

7 Conclusion and Limitations

本文介绍了 ADvLM，这是首个专门针对AD中的VLMs的对抗攻击框架。ADvLM 利用文本领域的语义不变归纳和视觉领域的场景关联增强，在多种指令和动态视角下保持高攻击有效性。

大量实验表明， ADvLM 超越了现有攻击方法，突显了AD系统面临的重大风险。

参考文献

[0]. Visual Adversarial Attack on Vision-Language Models for Autonomous Driving.

知识星球，新年优惠券重磅来来袭！，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧