本文系微信公众号《大话成像》,知乎专栏《all in camera》原创文章,转载请注明出处。 大话成像读者QQ 交流群2 :833282006 大话成像技术论坛:ww.dahuachengxiang.com 微信群请先加 zxzombie
本站新教学视频《图像传感器技术与应用》上线淘宝教育
《成像系统图像质量调试》《成像算法基础(python版)》 《成像系统镜头光学》《新版图像质量测试测量与国际标准》《新版cmos sensor测试测量与国际标准》《新版数字成像系统42讲》课程大话成像淘宝官方网店有售:
https://shop322456667.taobao.com/
最近,《Nature》杂志上发表了一篇名为"Low-Latency Automotive Vision with Event Cameras"的文章,它探讨了如何通过结合事件相机和RGB相机来实现低延迟的自动驾驶视觉感知。虽然特斯拉等许多自动驾驶方案主要采用单一的RGB相机进行"端到端"处理,但业界也在积极探索多传感器融合技术。将事件相机与RGB相机结合,通过所谓的"早期融合"(early fusion)技术,利用卷积神经网络(CNN)和图神经网络(GNN)进行物体检测,被认为是一种具有潜力的解决方案。然而,值得注意的是,由于事件相机的先进技术和专业用途,其成本通常高于普通的RGB相机。
汽车行业正经历着向新的集中式电气/电子架构(EEA)的转变。尽管如此,有观点认为,在初始整合阶段之后,我们可能会看到向分散式架构的转变,尤其是当边缘硬件,如传感器,完全被人工智能技术所赋能时。这种转变可能会为自动驾驶技术带来新的机遇和挑战。
当前,高级驾驶辅助系统(ADAS)中的计算机视觉算法主要依赖于基于图像的RGB摄像头,这在提供安全驾驶体验时需要在带宽和延迟之间做出关键的权衡。为了解决这一挑战,事件摄像头作为一种替代视觉传感器应运而生。事件摄像头通过异步测量光强度变化,提供高时间分辨率和数据稀疏性,从而显著降低了带宽和延迟的要求。尽管事件摄像头具有这些优势,但基于事件摄像头的算法在效率上可能很高,但在准确性上往往落后于基于图像的算法,或者为了达到可比的准确性结果,不得不牺牲事件的稀疏性和效率。
为了克服这一问题,本文提出了一种基于事件和帧的混合物体检测器,它结合了两种模态的优点,避免了这种权衡的影响。本文的方法利用了事件的高时间分辨率和稀疏性,以及标准图像中丰富但时间分辨率较低的信息,生成了高效、高频率的物体检测,从而减少了感知和计算延迟。我们证明了,通过结合20帧/秒的RGB相机和事件相机,可以实现与5,000帧/秒相机相同的延迟,同时保持45帧/秒相机的带宽,而不影响准确性。我们的方法通过挖掘事件相机的潜力,为在极端条件下实现高效且稳健的感知铺平了道路。
基于帧的传感器,例如RGB相机,在带宽和延迟之间面临权衡:更高的帧率减少了感知延迟但增加了带宽需求,而较低的帧率节省了带宽,却增加了感知延迟,可能会错过重要的场景动态。感知延迟是指视觉刺激开始到其在传感器上读出之间的时间。这种权衡在汽车安全中尤为重要,因为反应时间至关重要。先进的驾驶辅助系统通常以每秒30-45帧的速度记录,导致感知盲区时间为22-33毫秒。在高速场景中,这些盲区时间可能非常关键,例如检测快速移动的行人或车辆,或丢失的货物。此外,当存在高度不确定性,如交通参与者部分被遮挡或由于不利的天气条件导致照明不足时,这些帧率会人为地延长决策时间0.1-0.5秒。在这段时间内,突然出现的行人以12公里/小时的速度会移动0.3-1.7米,而以50公里/小时行驶的汽车将行驶1.4-6.9米。减少这种盲区时间对安全至关重要。
为了解决这个问题,行业正在向更高帧率传感器发展,这大幅增加了数据量。当前的无人驾驶汽车每小时收集高达11TB的数据,预计这个数字将上升到40TB。尽管云计算提供了一些解决方案,但它引入了高网络延迟。事件相机提供了一个有希望的替代方案,它们捕捉每个像素的强度变化,而不是固定间隔的帧。它们提供了低运动模糊、高动态范围、时空稀疏性和微秒级分辨率,同时降低了带宽和功耗。它们适应场景动态,提供了低延迟和低带宽的优势。然而,基于事件的方法的准确性目前受到传感器无法捕捉缓慢变化的信号和处理方法将事件转换为类似帧的表示以供卷积神经网络(CNN)分析的效率低下的限制。这导致冗余计算、更高的功耗和更高的计算延迟。
本文提出了一种新的混合事件和基于帧的对象检测器,结合了用于图像的标准CNN和用于事件的高效异步图神经网络(GNN)。GNN以递归方式处理事件,这最小化了冗余计算,并利用了关键的架构创新,如专门的卷积层、针对性的事件跳过和专门的有向事件图结构来提高计算效率。本文方法利用了事件和基于帧的传感器的优势,利用图像中的丰富上下文信息和来自事件的稀疏且高频率的事件信息,实现了高频率的对象检测,减少了感知延迟。在汽车环境中,它覆盖了基于图像的传感器的盲区间隔,同时保持了低带宽。这样做,它提供了额外的可认证的现实快照,显示在下一个图像中变得可见之前的对象或捕获编码交通参与者意图或轨迹的对象移动。
另外,Ars Technica 的一篇文章也提到了这一点:新型摄像头设计可以更快地识别威胁,并且占用更少的内存。点击这里查看文章。
https://arstechnica.com/science/2024/06/new-camera-design-can-id-threats-faster-using-less-memory/
a、与传统的基于帧的传感器相比,事件摄像机巧妙地规避了带宽和延迟之间的权衡问题。例如,高速摄像机虽然能够捕获低延迟的数据,但代价是高带宽消耗;而低速摄像机虽然节省了带宽,却以高延迟为代价。然而,本文的混合系统——20 fps的摄像机配合事件摄像机(在左下图中,黄色矩形内的红点和蓝点代表事件摄像机的测量值)——能够同时捕获低延迟和低带宽的数据,其性能等同于5,000 fps摄像机的延迟和45 fps摄像机的带宽。
b、应用场景。本文利用这一混合设置进行低延迟、低带宽的交通参与者检测(如底行所示,绿色矩形代表检测区域),与使用标准摄像机(顶行和中间行)相比,这显著提升了下游系统的安全性。
c、检测的3D可视化。我们的方法利用图像之间的盲区事件(红点和蓝点)来检测物体(绿色矩形),这些物体将在下一张图像中变得可见(红色矩形)。
本文介绍的系统被称为深度异步图神经网络(DAGr),它将用于图像处理的卷积神经网络(CNN)与用于事件处理的异步图神经网络(GNN)相结合,实现了高时间分辨率和低延迟的对象检测。接下来,我们将讨论事件和图像是如何在我们的系统中协同工作的。每当图像到达时,CNN会对其进行处理,并将特征以单向方式共享给异步GNN,即CNN特征流向GNN,但不是反过来。因此,GNN可以利用图像特征来提升性能,尤其是在只有少数事件被触发的情况下,这在静态或慢速移动的场景中很常见。异步GNN根据参考文献32启发的高效CUDA实现,构建了时空图,并通过一系列卷积和池化层将该图与从图像中获得的特征(通过跳跃连接)一起处理。为了促进深度和高效的网络训练,本文使用了图残差层。此外,设计了一个专门的体素网格最大池化层,它在早期层中减少了节点数量,从而限制了较低层中的计算量。
本文的检测头和训练策略借鉴了YOLOX,尽管本文用图卷积层取代了标准卷积层。最后,本文设计了一种有效的样条卷积层变体作为核心构建块。与参考文献35中的原始层相比,该层通过预先计算查找表来节省计算。为了提高效率,本文遵循了参考文献中提出的步骤,将GNN转换为异步模型。首先,本文使用参考文献34中的训练策略在一批事件和图像上训练网络,然后通过制定递归更新规则将训练的模型转换为异步模型。特别地,给定图像和直到下一帧(50ms后)的事件E,训练模型以检测下一帧中的对象。异步模型具有与训练模型相同的权重,但使用递归更新规则来单独处理事件并产生相同的输出。在每一层,它都会保留其先前的图形结构和激活的内存,并针对每个新事件进行更新。如参考文献所示,这些更新是高度本地化的,因此大大减少了整体计算。
为了最大限度地节省计算量,本文采用了三种主要策略:首先,将每一层中的计算限制为在其特征或节点位置发生变化的节点之间发送的单个消息,然后将这些变化中继到下一层;其次,修剪非信息更新,这停止了更新到较低层的中继,此修剪步骤发生在网络早期执行的最大池操作中,从而最大化了修剪的潜力;最后,使用有向和无向事件图,有向事件图仅在节点在时间上有序的情况下连接节点,这抑制了更新传播并导致进一步的效率提高。本文报告了方法中每个组成部分的消融研究,并与最先进的基于事件和帧的对象检测器在效率和准确性方面进行了比较。本文展示了异步GNN在单独处理事件时的性能,然后用图像和事件显示结果。接着,比较了本文的方法在连续帧之间的盲区内检测对象的能力。比较发现,本文的方法在实现高性能(通过使用图像超过基于图像和基于事件的检测器)和保持高效之间取得了平衡,这比将事件处理为密集帧的现有方法更为有效。
第一列显示第一幅图像 I0 的检测结果。第二列显示使用事件在图像 I0 和 I1 之间进行的检测结果。第三列显示第二幅图像 I1 的检测结果。绿色矩形表示汽车的检测结果,蓝色矩形表示行人的检测结果。