HSl-Drive v2.0: 更多数据用于自动驾驶场景理解的新挑战 !

文摘 2024-12-30 18:10 河南

自动驾驶之星

点击上方蓝字关注自动驾驶之星

点击下方卡片，关注“自动驾驶之星”

这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入Introduction

作者提出了一个更新的HSI-Drive数据集，旨在利用超光谱成像（HSI）开发自动驾驶系统（ADS）。v2.0版本包括在真实驾驶场景中冬季和秋季录制的视频中的新标注图像。
与前一个v1.1版本中包含的春季和夏季图像相结合，新的数据集包含了覆盖四季的752张图像。在本论文中，作者展示了在v1.1数据集上获得先前发布的结果的改进，并展示了在新v2.0数据集上训练的模型的增强性能。作者还通过尝试更强大的图像分割模型在全面场景理解方面取得了进展。
这些模型包括旨在识别如车辆和路标等基本道路交通安全目标的新的分割类别，以及像行人和自行车等高度脆弱群体。此外，作者还提供了模型在将HSI视频序列分割到各种环境和条件下的性能和鲁棒性的证据。最后，为了正确评估本文中描述的结果，必须考虑可以合理部署在车辆上的处理平台的限制。
因此，尽管本文的实现细节超出了范围，但作者的研究重点放在开发计算高效的轻量级机器学习模型，最终可以在高吞吐量率下运行。
数据集和一些分割视频的示例可以在 https://ipaccess.ehu.eus/HSI-Drive/中找到。

I Introduction

由于小型、快照式光谱相机的出现，使得在移动平台上以视频速率记录光谱图像成为可能，因此现在可以在自动驾驶系统（ADS）和高级驾驶员辅助系统（ADAS）的开发中探索高光谱成像（HSI）处理技术[1,2]。然而，在实际驾驶条件下以视频速率获取和处理光谱数据存在固有的技术约束和工程挑战。户外录制意味着需要处理不断变化的照明和天气条件、快速移动的目标等。处理这些图像中的光谱信息意味着需要处理各种非控制的自然光照和背景、传感器饱和效应、在非常不同距离处存在物体，以及由于传感器技术和有限的空间分辨率导致的严重的光谱混合。为了在智能视觉应用中解决这些问题，光谱数据需要进行预处理，并补充相关空间信息。

深度学习模型，特别是全卷积网络（FCNs），在捕捉各种大小和形状物体的空间特征方面表现出色，并已广泛应用于高光谱图像分割[3, 4, 5, 6]。在数据变化大的数据集上训练和测试高光谱图像处理（HSI）机器学习系统需要大量数据。不幸的是，专门用于训练和测试ADS（汽车自动驾驶系统）的HSI处理ML系统的数据集只有为数不多的几个。特别是，HSI-Drive [10]是一个结构化的HSI数据集，正在用于研究用于部署在汽车上的ADAS（自动驾驶辅助系统）的高光谱图像分割系统。在本论文中，作者提出了HSI-Drive数据库（v2.0）的扩展版本，该版本包含比前一个v1.1版本超过两倍的数据。作者展示了在更广泛的环境中获取更多数据的可用性如何使开发更准确和鲁棒的高光谱图像分割模型成为可能，同时也扩大了HSI处理系统的功能，使其能够对更全面的环境进行理解。

II HSI-Drive v2.0

v2.0版本的HSI-Drive数据集[10]于2022年12月发布，包含752张手工 Token 的图像，来源于秋季（201张图像）、冬季（206张图像）、春季（166张图像）和夏季（155张图像）。与前一个v1.1数据集相比，v2.0在总图像数量上增加了超过272%，数据多样性得到了显著提高。该数据集包含近4400万 Token 像素，分为10个类别，如表1所示。尽管 Token 的主要目的是有益于光谱分类，但为了扩大应用范围，还定义了具有意义的类别，因此大多数类别包含不同材料。因此，每个类别表现出非常不同的光谱变化，这挑战了不同类别间的可分性。例如，虽然道路类别只包括沥青路面，但行人类别包括过路行人、骑行者、摩托车手和动物。另一方面，根据年份、天气条件、白天和道路类型仔细构建数据集，提供了两个潜在的研究途径：开发不受照明和环境条件多样性影响的通用和稳健分类系统，并选择特定子集的数据集来研究与特定驾驶和环境情况紧密相关的现象。

数据集中的图像是通过配备Imec 25-band VIS-NIR (535nm-975nm) mosaic spectral filter的Photonfocus相机拍摄的，该相机安装在CMOSIS CMV200图像晶圆传感器上 [2]。数据集中的原始图像具有1088 x 2048像素的空间分辨率，每个像素的尺寸为5μm x 5μm。然而，光谱带是从由5x5像素窗口Fabri-Perot滤波器形成的拼图提取的，导致输出立方体的分辨率降低到216 x 409 x 25大小。这些图像以12位数字分辨率记录，导致用于使用的记录设置的估计信噪比（SNR）在23.43dB和27.29dB之间。

获取移动车辆在变化照明条件下拍摄的照片面临多个挑战。首先，为了避免运动模糊，必须设置适当的曝光时间限制。这一限制反过来又挑战在低照度条件下拍摄图像。调整传感器的增益可以部分补偿光线不足，但也会放大图像数据中的噪声。摄像机光学系统的f值（光圈）也可以调整以增加光接收，但这会影响景深和光束入射角，同时产生传感器Fabry-Perot滤波器的响应变化。其次，在阳光条件下，有显著的照明和阴影表面之间的光对比，设置曝光时间变得至关重要，以最小化或防止由于传感器有限动态范围导致的像素饱和。最后，增加不同相机配置的数量会导致图像预处理流程更加繁重和耗时，以保留图像光谱信息的连贯性，同时可能影响ADS/ADAS的实时操作要求。

III Experimental setup

Segmentation experiments

在本节中，作者针对基于HSI的语义分割进行了四项实验，使用了HSI-Drive 2.0数据。早期研究中已经进行了两项实验（3类和5类），并利用新数据更新和改进了FCN模型。这两项新实验涉及6类分割，并在5类实验基础上分别包括了Painted Metal和Pedestrian两个类别。这些添加的目的是为了增强系统感知到的环境的整体理解，从而有助于提高场景理解能力。如以下所述，所获得的实验结果表明，结合新训练数据可以增强所开发分割系统的分类能力、性能和鲁棒性。

实验1旨在对场景中的道路（沥青路）和道路 Token 进行简单的分割。这种设置对于车道保持和轨迹规划系统特别有用。在实验2中，通过包括天空和植被类别，将背景信息进行了补充。这一扩展使得能够识别出潜在的障碍物，如车辆、自行车、行人等，可能需要采取相应的行动。此外，分割揭示了道路两侧和上方存在路标、交通信号灯和信息面板。

新设计的实验3中融入了金属表面划分的概念。这一类别特别关注车辆和交通标志的存在，这有助于改善信号识别、紧急刹车、碰撞警告和自适应巡航控制系统的系统。实验4的目标是涵盖行人、骑自行车的人和摩托车手的划分，他们的有效识别是实现ADS中保护他们的前提。

Data partition and preprocessing

752张图像被分为5个子集，用于5折交叉验证训练方案。分区是基于一个比例标准进行的，该标准考虑了图像在数据集结构中的分布，即白天、气候、季节和道路类型。为了防止局部过拟合并提高模型的泛化性能，在训练过程中使用了验证子集进行早期停止。具体来说，使用了3个子集进行训练（60%），1个子集进行验证（20%），1个子集进行测试（20%）。为了减轻随机权重初始化对模型性能的影响，每次训练都重复了3次。

关于原始图像预处理阶段，作者进行了图像裁剪、通过暗平和扁图像进行反射校正，并通过空间双线性插值进行部分去混（见[12]以获取更多信息）。由于在训练包含卷积空间过滤器的模型时，空间过滤并未产生任何改进，因此作者删除了先前实验中包含的中值滤波步骤。最后，为了增强图像对光照条件的鲁棒性（去阴影），预处理流程的最后一步进行了每个像素值的归一化（即将每个像素的值除以其光谱特征的总和），这类似于[13]中的描述，将[14]中的工作扩展到了超光谱领域。

Model training and optimization

在本研究中，作者继续探索编码器-解码器 FCN 模型，以有效结合光谱和空间特征进行 HSI 的语义分割。与 [12] 中报告的小型 FCN 模型相比，作者探索了更深层的编码器结构，充分利用了新的数据，并在单次通过整个图像的情况下对图像进行分割。在更大的图像上进行训练意味着使用更深层的网络有效地提取不同尺度下的空间特征。

这些模型在配备24GB内存的NVIDIA GFORCE RTX-3090上进行训练。在训练过程中，使用了23张图像的批量大小，而验证时使用了49张图像的批量大小。通过使用Adam优化器，初始学习率为0.001，梯度衰减因子为0.9，平方梯度衰减因子为0.999，200个周期以及每个周期的数据Shuffle，得到了最佳拟合效果。目标函数是逆频率加权交叉熵损失，以确保少数类获得更高的权重。

进行了网格搜索超参数优化研究，以寻找模型复杂性和分类性能之间的最佳权衡。探索的模型超参数包括编码器深度（2，3，4和5），输入图像大小（全图像 versus 图像拼接），输入卷积层中的滤波器数量（8，16和32），卷积核的大小（3和5），以及丢弃层的位置（每个编码器块后或者只在每个和最后一个块后）和丢弃率（0，0.2，0.5）。在训练过程中，采用了正则化技术对卷积滤波器，并尝试了三种不同的学习率（0.01，0.001，0.0001）。训练结果得到的最佳模型，是修改了文献[12]图6所示的架构，包括第一个卷积块中32个滤波器，编码器深度为5层，以及3x3卷积核。由于池化层中的步长值为2，限制了输入图像大小为2的指数乘积，因此最大兼容尺寸为192x384，所以在训练过程中，每个216x409图像被分成四个192x384的拼接块。在测试时，可以根据需要将块合并以恢复原始大小。

该模型包含总共31.10亿参数，并需要每推理一次34.87亿浮点运算（GFLOPS）。为了满足ADAS/ADS系统的严格延迟和内存占用实现约束，作者通过分析每个层的计算复杂性和评估模型的准确性，应用了一种基于迭代剪枝算法的简化方法。经过这次优化过程，计算负载降低到8.49 GFLOPS，参数数量减少到仅320K，且在执行8位整数量化后，对模型的准确性没有明显影响。本文将详细描述实现这一显著模型压缩的流程，并计划在近期发表。

IV Results

表2至VI展示了每个实验中完整216x409图像的分割指标（召回率、精确率和IoU）。全局指标考虑了数据集中每个类的频率，而加权指标考虑了数据集中每个类的反频率，优先考虑少数类。计算指标所使用的公式可以在[11]中找到。

Segmentation results

实验1中，类别划分如下：公路 - 60.73%，公路标线 - 3.02%，不可行驶 - 36.25%。表2中呈现的结果与在v1.1数据集上训练的前一代模型相比有了显著改进。总体IoU从91.50增加到96.87，而加权IoU从72.60提高到88.55。特别地，公路标线的精确度从77.22提高到95.53。此外，如作者将讨论的那样，网络的满意性能在未标注像素上也表现出了强大的鲁棒性，这在视频序列中得到了观察。

实验2中，类别划分如下：道路 - 60.73%，路标 - 3.02%，植被 - 21.25%，天空 - 5.71% 其他 - 9.29%。如表3所示，添加两个具有良好可分性指数的新类别（植被和天空）并未对其他少数类别的准确性造成惩罚。与在1.1数据集上得到的结果相比，有显著改善，全局IoU从87.66增加到94.51，加权IoU从75.93增加到87.18。这种改善主要归因于路标类IoU的增加，从64.90增加到86.08。

实验3中，类别划分如下：道路 - 60.73%，路标 - 3.02%，植被 - 21.25%，涂漆金属 - 2.16%，天空 - 5.71% 和其他 - 7.13%。如表4所示，尽管涂漆金属类别的平均精确度为85.20%，但召回值65.40%需要提高。然而，由于其异质性和高类内变异性，需要对分割图像进行更详细的分析，以确定分类成功和失败是否在一致或特定的照明或天气条件下发生。

在实验4中，类别分布如下：道路 - 60.73%，道路 Token - 3.02%，植被 - 21.25%，行人 - 0.48%，天空 - 5.71%以及其他 - 8.81%。行人类别得到的精确度与实验3中得到的 painted metal 类别精确度相似，但 recall 更好（平均值为70.20）。

Influence of lighting and weather conditions

结构化组织的高斯混合先验数据集允许定义在类似条件下获取的数据子集。在这里，作者提出了一个实验结果的分析，旨在研究使用这些子集训练卷积神经网络（FCN）的后果，并探索FCN在不同条件下的性能。这种分析为了解可能对分割系统要求更高的条件，并为解决这些特定条件提供有价值的指导，以应对未来的研究努力。

根据表6 中的结果，可以得出一些结论。关于天气条件，FCN 在 Cloudy 子集中实现了最佳性能。这与更 Favorable 和 Homogeneous 的照明条件相一致，阴影较轻，曝光不足。雨天条件更具挑战性，因为能见度降低，存在眩光和光反射的高概率，以及镜头上的水珠和凝结水滴。令人惊讶的是，与其他条件相比，总体性能指标没有显著降低，除了 Road Marks。在 Sunny 子集中，获得了最差的结果，这些图像具有严重的照明对比，阴影区域具有非常低的反射率，而阳光区域则过度曝光。

关于白天光线条件的变化，中午子集表现最好，这一子集具有足够的照明条件，不受天气状况影响，并且太阳高度角更高。相反，黎明和日落子集是最具挑战性的，因为它们通常包含具有严重眩光、高对比度和低照度的图像。然而，全局和加权指数值之间没有显著差异。

Detailed evaluation of some representative scenes

尽管评估指标能为作者提供分类器性能的有用见解，但HSI-Drive数据集图像的稀疏标注特性要求作者通过可视化整张图像的分割来详细分析分割性能。这种定性方法有助于更好地理解分割系统的总体性能和鲁棒性，尤其是在具有挑战性的条件下。在本节中，作者对几个代表性场景的质量分析进行了概括。此外，通过分析视频序列而不是静态图像，作者可以更好地感知系统操作的一些特殊性，例如低空间分辨率和高光谱混合的远景背景分割。读者可参考[10]观看一些示例视频。由于作者尚未探索使用时间信息增强ML模型训练的任何技术，这些视频仅展示了由FCNs生成的帧到帧分割。

V-A1 A highway scenario

图3描绘了一个冬日的晴天早晨的高速公路场景，两侧有交通标志和护轨，一侧有植被，前景为天空，车辆约在25米远处。尽管光线条件具有挑战性，但分割结果非常令人满意。在实验3中，系统有效地区分了道路标志、车辆（涂金属）和图像背景中的起重机。

V-A2 Adverse lighting and weather conditions in highway

图4是在一个冬雨清晨获得的（图像中可以看到两个水滴）。需要注意的是，对于实验1，在這種情況下，FCN表現出強健性；對於實驗3，當存在一些液滴時，在駕駛方向上的分割錯誤主要發生，因為存在液滴。有趣的是，當分析與此圖像相應的視頻序列（參見圖5）時，可以觀察到在第二滴液出現之前，貨車在frame 1和frame 2中被正確分割（參考圖5）。儘管存在左側液滴，碎石路 segmentation 始終表現出強健性。

V-A3 Severe lighting contrasts

阴影的存在，尤其是在晴天，可能导致传感器动态范围受到挑战，并可能阻碍场景的准确分割。图6和图8分别展示了这种情况的两个实例。可以看出，FCN成功地防止在阴影边缘生成错误的边缘，导致在背景中错误主要限于小型的伪影。在图6中，该图像是在晴冬早晨捕获的，即使图左的小型车辆逆向行驶，FCN也能识别出它们。然而，由于分辨率较低，区分这些车辆的车体和灯光变得具有挑战性。关于图8，尽管图像中有三分之二是处于阴影中，只有三分之一处于直接阳光下，但在实验1中没有明显的错误分割。在实验3中，只有由于减速垫产生的道路 Token 类产生了一小条水平伪影。

V-A4 Overexposure

传感器动态范围有限，且没有自动曝光控制，这增加了过曝事件的概率，尤其是在变化和高照度条件下（如表面反射、阳光直射相机等）。像素饱和度对分割系统来说可能是灾难性的，因为材料反射光谱特征信号丢失。图7来自一个在冬日阳光明媚的早上录制的视频，画面中有正面阳光和严重眩光的沥青路面，这种情况就是如此。可以看到，系统成功地识别出了车辆、沥青路面、植被和防护栏。错误分类的像素只是某些在过曝部分错误地被分类为沥青的道路 Token 。为了理解为什么这种现象没有更严重地影响整体分割，作者在图1中展示了25个光谱带中饱和像素数量显著差异。最不饱和的带（24）包含只有9124个饱和像素，而最饱和的带（9）包含21936个饱和像素。这表明使用HSI（色度、饱和度和亮度）与窄、分离的带在处理这种情况下具有优势。此外，值得注意的是，即使最饱和的带仍然可以提供有价值的信息（灯光明显与车身区分）。

V-A5 Segmentation of scene backgrounds

光谱立方体低空间分辨率挑战了图像背景中物体的精确分割，因为缺乏精确的空间信息和强烈的光谱混合。然而，这一限制并没有显著限制系统的适用性，因为背景中的错误识别物体通常离相机很远，随着汽车向前移动和物体距离减小，它们会被正确地分割。如图15所示的序列中可以观察到这一点。在该序列的第一帧中，一辆车正在转弯并向下移动。在这个初始帧中，远背景中的部分沥青路被错误地分类为植被或其他。然而，随着汽车在随后的帧中向前移动，可以观察到同样的部分沥青路被准确地分割。

V-A6 Intra-class variability

涂覆金属类别包括各种目标类型，如限速标志、信息面板、车辆、交通信号灯或街灯。同样，行人类别包括行人、骑自行车的人、摩托车手甚至动物，衣着差异进一步增加了光谱多样性。如III节所述，这些类别的较高类内光谱变异性可能对它们的正确分类造成障碍。为了更好地说明这些类别与其他低变异性类别的差异，图2显示了来自三个少数民族类（道路 Token 、涂覆金属、行人）的10万个随机像素的光谱特征的箱形图和直方图的异常值。可以观察到，道路 Token 在与其他两个类别相比具有更紧凑的分布和较少的异常值。涂覆金属和行人各频段之间存在交替变化，但涂覆金属在各频段中包含更多的异常值。这些发现与表2至V中呈现的数值结果相符。

观测到，例如，如何如图9和图10所示，FCN正确地区分信号的前视图（涂漆金属）和后视图（未涂漆金属/其他）是性能提升的明显体现。然而，网络在某些情况下并非鲁棒，如图11所示，其中黑色涂漆车辆有时会被误认为是沥青。尽管在其他情况下也获得了良好分割暗色车辆的结果（参见图3、图7、图8和图14），但在此案例中，RGB图像的等色性并未完全克服。

在本节中，作者将展示Pedestrian类中光谱多样性元素如何被分割。在图9中，可以观察到在道路边缘正确识别行人。图10和图11提供了两个好例子，其中在雨中的城市道路上，右侧道路边缘的骑行者被相当准确地检测到。然而，在图13中，尽管背景中的行人和第二平面中的女性被正确识别，但FCN无法检测到前景中的女性。同样，在图14中，FCN未能识别出其中的行人。然而，当作者检查对应视频序列的帧（图15）时，作者可以观察到在第二帧中，即使行人距离较远，也能检测到他们，在第三帧中，他们被准确地分割。需要进一步的研究来理解这种不稳定性，并提高行人分割的整体性能。

V Conclusions

这篇文章介绍了HSI-Drive v2.0，这是HSI-Drive数据集的第二版，包含752张涵盖全年各个季节的真实交通场景图像。该数据集包含约4400万 manually 标注的像素，分为10个类别，主要基于驾驶环境中发现的材料的 spectral 反射特性。这个扩展的数据集显著增加了低代表性类别中的像素数量，从而使得在 ADS 中进行更准确和强大的 ML 分割模型得以发展，以提高对 ADS 的场景理解。

新数据集的潜力得到了通过使用全新设计的FCN模型进行多种实验的验证，与使用v1.1版本获得的先前结果相比，取得了显著的改进。更新后的模型还在两个新的六类实验中进行了评估，包括Painted Metal和Pedestrian类。尽管这些类别中的光谱内类变异性较高，但结果仍然相当令人满意，考虑到该模型是在在非常变化和具有挑战性的照明和天气条件下进行训练和测试的。

参考文献

[0]. HSI-Drive v2.0: More Data for New Challenges in Scene Understanding for Autonomous Driving*.

知识星球，新年优惠券重磅来来袭！，结识一群志同道合的小伙伴一起成长。

下一个风口会不会是生成式AI 与具身智能的时代，我们特意创建了生成式AI与具身智能交流社区，关于大模型，机器人的相关业界动态，学术方向，技术解读等等都会在社区与大家交流，欢迎感兴趣的同学加入我们(备注具身智能)！

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习，并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括端到端大模型，VLM大模型，BEV 障碍物/车道线/Occ 等的学习资料！

生成式AI与具身智能知识星球，我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容，本知识形象并包括: 学习板块，求职面试，有问必答，论文速递，行业动态五大板块！星球内部包括生成式AI大模型，具身智能，业界资料整理等的学习资料！

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区，欢迎大家添加小助手加入我们的交流群里，这里有一批奋斗在量产第一线的小伙伴等你的加入！

👇点个“赞”和“在看”吧

自动驾驶之星

自动驾驶之星，是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态，有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入！希望每个人在这个浪潮中都能成为自动驾驶之星！