点击上方“CVPaper”,选择加"星标"或“置顶”
顶刊论文解读,第一时间分享
题目:Detecting Road Obstacles by Erasing Them顶刊论文解读,第一时间分享
通过消除法检测道路障碍物
作者:Krzysztof Lis; Sina Honari; Pascal Fua; Mathieu Salzmann
摘要
车辆在道路上可能会遇到无数的障碍物,而且事先记录下它们以训练一个检测器是不可能的。相反,我们选择图像块,并使用周围的道路纹理进行填充,这倾向于从这些块中移除障碍物。然后,我们使用一个训练有素的网络来识别原始块和填充后的块之间的差异,这标志着擦除了一个障碍物。
关键词
计算机视觉,卷积神经网络, 智能车辆,语义分割,车辆安全。
I. 引言
现代方法为基于视觉的自动驾驶提供了一个近乎完整的工具包。这包括道路分割[1]、[2],车道检测[3]、[4],车辆和行人检测[5]、[6]、[7],以及多类别语义[8]、[9]、[10]、实例[11]和全景[12]、[13]分割。此外,基于视觉的辅助功能现在在市场上得到了广泛接受[14],并使车辆能够在预测的可行驶空间内规划路径,同时避免其他交通参与者。然而,遗漏道路上罕见且多样化的意外障碍物的风险依然存在。这些障碍物之所以罕见,是因为它们无法直接应用现在标准的深度网络训练方法,即向它们展示一个详尽的标注样本集。
在实践中,检测这类意外的障碍物通常需要激光雷达传感器[15]或多个摄像头[16]。这里,我们提出了一种方法,它只需要单个RGB图像就能在可行驶区域内检测障碍物,我们假设该区域外的物体是不相关的,因为自动驾驶汽车会在规划行驶之前检测到道路,并且不会无缘无故地离开可行驶区域。为了证明这是一个可行的假设,我们将展示在给定道路边缘的地面真实位置或仅由现成的分割算法产生的不完美的道路分割结果的情况下给出的结果。
我们的方法依赖于这样一个事实:障碍物与周围道路表面看起来不同。因此,我们通过填充图像块并检查填充后的块与原始块的相似性来检测它们。虽然类似的直觉已经被用于检测几种应用场景中的异常,例如检测制造缺陷[17]、[18]或异常面孔[19],但这些任务的严格限制性质使其能够依赖于手工特征的简单比较。相比之下,在道路上,由于道路标记、道路纹理的多样性以及超出填充块的障碍物,这种方法将产生许多误报。
我们的解决方案是引入一个经过训练的不一致网络,用于识别填充块与原始块之间的差异是否显著。它返回每个像素的热图,表示障碍物的存在,如图1所示。为了训练它处理训练数据库中没有的物体,我们通过移动现有训练对象(如路标和人)到道路上来生成样本,以形成合成障碍物。
我们的实验表明,我们的不一致网络仅在Cityscapes[20]对象上训练就能成功检测在显著不同的道路场景图像上的障碍物,无需任何标注数据,也无需对这些新场景进行任何重新训练。换句话说,我们的方法很好地泛化到以前未见过的真正障碍物和新的路面。它在Lost & Found[16]数据上超越了早期的单目道路异常检测器[21]、[22]、[23]、[24],在Fishyscapes基准测试[22]中的表现也超过了它们,以及在我们自己的新收集的数据集上,该数据集包括额外的不寻常物体和道路表面。
III. 方法
我们的目标是识别车辆可能与之碰撞的道路障碍物。这意味着它们位于自动驾驶感知流程的前一阶段认为是可行驶的空间内。因此,它们是最相关的障碍物,因为一个合格的驾驶系统只会在该空间内规划轨迹。换句话说,我们选择的任务是在估计的道路区域内识别所有表示障碍物的像素。这是困难的,因为障碍物可能采取许多形式。此外,由于它们是意外的,没有保证它们在用于训练网络以识别它们的数据库中出现过。因此,需要使网络对不属于道路的物体做出反应,而没有这些物体的明确描述,甚至没有示例。
为此,给定图像中表示可行驶区域的二进制掩码,我们提出了以下两步方法:
通过移除道路补丁并填充它们来擦除障碍物,以滑动窗口的方式进行;
使用不一致网络比较原始图像和填充后的图像,并决定它们是否足够相似。
这个方案背后的直觉是,如果存在障碍物,填充区域将与原始图像看起来非常不同。然而,即使没有障碍物,填充区域也将与原始图像相似,但并不完全相同。因此,需要不一致网络来评估它们是否足够不相似以标记潜在的障碍物。它产生一个热度图,表示可行驶区域内每个像素属于障碍物的可能性。在本节的其余部分中,我们将更详细地讨论这两个步骤。
A. 可行驶区域
自动驾驶系统必须确定它可以移动的道路区域。我们的方法检测被认为是可行驶区域内的障碍物,因为它们是唯一可能在车辆计划路径上并且可能危及它的障碍物。当然,道路的一部分可能被错误地标记为不可行驶,导致图8中所示的包含障碍物被忽略。然而,这并不会影响安全性,因为车辆永远不会尝试去那里。
我们的方法可以利用任何提供所需可行驶区域信息的方法。在我们的实验中,我们使用了在Cityscapes数据集[20]上训练的PS-Net语义分割网络[8],正如[53]中实现的框架。我们将道路区域视为被分类为道路或人行道的所有像素,因为我们针对的许多道路纹理可以被分类为两者之一。请注意,像汽车和行人这样的标准类别由PS-Net本征考虑。因此,我们专注于那些没有可用的监督或非监督训练数据的不寻常障碍物。尽管如此,由于这些不寻常的障碍物可能部分被分类为非道路,我们包括了完全包含在道路区域内的其他类别的区域。图2演示了这个过程。作为一个极限情况,我们还评估了使用地面真实道路掩码的完美道路检测情况。
我们的方法只需要一个粗略的可行驶区域掩码,因此在实际部署中,语义分割可以被计算效率更高的系统所替代,例如仅预测道路边缘并填充它们之间的空间。
B. 填充
为了在保留周围道路外观的同时擦除障碍物,我们使用了一个通用的填充器[54],该填充器依赖于对抗性方法以确保填充的图像看起来是真实的。我们使用的这个模型是在场景识别数据集Places2[55]上训练的版本,并没有进一步训练。
填充器接收一个图像,其中一部分已被黑色像素替换,并提供已移除区域的像素掩码。它输出一个图像,缺失部分被填充,以最大程度地保持场景的连续性和内容。填充器会接收一个图像,其中一部分已被黑色像素替换,并提供已移除区域的像素掩码。它输出一个图像,缺失部分被填充,以最大程度地保持场景的连续性和内容。
一个简单的使用方法是一次性填充整个道路区域。然而,这不会为填充器提供关于道路外观的指示,导致填充后的图像与原始图像在整个道路区域上都有差异,从而阻碍了随后的障碍物检测。相反,我们采用滑动窗口方法填充道路补丁,以提供足够的上下文,使网络能够重建道路表面,如图3所示。这些补丁还需要足够大,以包含我们事先不知道大小的障碍物。因此,我们遵循滑动窗口方法,在400×400像素的图像区域内填充200×200像素的可行驶区域补丁,以提供上下文。
虽然当填充区域完全包含障碍物时,障碍物通常可以很好地被擦除,但填充器也能够重新创建只部分包含在填充区域内的障碍物。为解决这个问题,我们使用连续的补丁,它们的相对重叠为0.7,增加了至少有一个补丁覆盖整个障碍物的可能性。这意味着每个图像像素会被多次填充。然后我们通过对每个像素的多次填充进行加权平均来融合它们,其中每次填充的权重基于相应补丁中心与感兴趣像素位置的曼哈顿距离来计算。具体来说,以位置cj = [uj, vj]⊤为中心的补丁对位于位置p = [u, v]⊤的像素的填充贡献权重为
C. 不一致性网络
IV. 实验
A. 基线
Resynthesis[21]首先对图像进行语义分割,然后仅使用条件GAN[34]从结果的语义图中合成图像。原始图像与重建图像之间的差异使用与我们使用的类似目的的不一致性网络检测,但该网络是通过合成异常训练的;这些异常是通过在选择对象实例并将它们的语义类别替换为随机的不同类别之前合成的。 JSRNet[35]同样执行图像重建,但瓶颈是语义分割器的最后一层激活。然后使用SSIM度量将重建的图像与原始图像进行比较。 SynBoost[50]通过提供语义分割的不确定性估计作为其不一致性网络的附加输入来扩展重建方法,该网络预测异常分数。 Entropy Maximization[46]通过将COCO[47]对象添加到Cityscapes帧中,训练分割网络以在显式的OOD样本上最大化输出熵。它还对障碍像素的连通组件进行后处理,但这部分不适用于我们的逐像素评估。 LearnedEmbeddingDensity[22]从DeepLab[57]层提取的特征学习内部分布。然后它通过归一化流将特征映射到潜在的、高斯分布的向量。映射被训练以最大化在内部样本中观察到的特征的似然性。 Void Classifier [22]使用城市景观空洞区域作为异常值的例子。然后,它可以显式地将空添加到预测类的集合中,或者学习在空区域中最大化Softmax熵。 Bayesian DeepLab[58]将丢弃层引入深度实验室网络。在推断时,它通过随机化辍学来抽取样本。不确定性是作为结果分布和网络权重之间的互信息来测量的。 Maximum Softmax[51]测量最可能类别的预测Softmax概率(Max Softmax)--低值表示不确定的预测和可能的语义异常。
B. 评估指标
主要的像素度量是平均精度(AP),即精度-召回曲线下的面积。由于障碍物通常覆盖不到总路面的2%,因此这个指标比基于接收者操作曲线(ROC)的度量更有意义。 次要的像素度量是在95%真正例率(TPR)下的假阳性率(FPR),我们将其表示为FPR95。要计算它,将二元分类阈值降低,直到检测到95%的障碍物像素,然后测量引入了多少假阳性。 主要的实例度量是平均F1,它总结了真正例、假阳性和假阴性的数量,平均在几个IoU阈值上。 SIoU是为每个障碍物实例计算的像素交集-过并集的平均值,进行了调整以考虑覆盖多个实例的预测,如[59]中所述。 RPPV是分别为每个实例计算的正预测值(精度),然后求其平均值。