导读:在当今迅速发展的科技世界中,开放世界视觉感知技术正面临前所未有的挑战。图像传感器必须在动态、多变且不可预测的环境中进行精确地感知与处理。本文将深入探讨这些挑战,并介绍一种革命性的解决方案——受人类视觉系统启发的互补视觉范式。
本文总结:
开放世界中目前的芯片像传感器面临着处理动态、多样且不可预测的环境的巨大挑战:
感知层面的混叠和量化误差:传统图像传感器在高速度、高分辨率、大动态范围和高精度方面的发展受到功率和带宽的限制,导致在开放世界应用中容易出现混叠和量化误差。
数据冗余和带宽限制:由于角落情况的稀有性,传统传感器容易产生大量冗余数据,浪费带宽和功率资源。
有限的动态范围:图像传感器在面对极端光照条件时,往往难以同时捕捉高亮度和低亮度的细节。
语义对齐错误和领域转移问题:在动态、多变的环境中,传统传感器难以保持语义一致性和适应不同场景的变化。
而该芯片从人类视觉通路的处理信息的机制出发,设计了类人类双通路互补的芯片和相关算法,为了应对上述挑战,提出了一种受人类视觉系统启发的互补感知范式。该范式通过解析视觉信息为基于原语的表示,并将这些原语组装成两条互补的视觉路径:认知路径(COP)和行动路径(AOP)。这种设计方法很巧妙,在介观的维度上去设计芯片。具体解决方案如下:
基于原语的表示:将视觉信息解析为颜色、强度、高空间分辨率、高精度等原语,并通过COP实现精确认知,最小化空间混叠和量化误差。
并行异构读出架构:为了实现原语的高效转换和传输,设计了并行异构读出架构。COP的绝对强度信号通过高精度密集矩阵转换,而AOP则通过快速编码和压缩机制,实现稀疏时空差异信号的高效传输。
混合像素阵列:芯片采用混合像素阵列,结合锥体启发像素和杆状启发像素,解析视觉信息为特定颜色和白色光谱,同时实现不同灵敏度的高动态范围感知。
多路径算法:利用互补路径的优势,设计多路径算法,实现对角落情况的快速响应和精确感知。COP提供细粒度的语义细节,AOP提供变化、纹理和运动的即时感知,通过同步这些结果,实现对场景的全面理解。
以下科普内容来自Naturel文章如下:
摘要
图像传感器在处理动态、多样且不可预测的开放世界应用场景时面临巨大挑战。然而,图像传感器在高速度、高分辨率、大动态范围和高精度方面的发展受到功率和带宽的限制。在此,我们提出了一种受人类视觉系统启发的互补感知范式,该范式将视觉信息解析为基于原语的表示,并将这些原语组装成两个互补的视觉路径:一个面向认知的路径用于精确认知,另一个面向行动的路径用于快速响应。为了实现这一范式,开发了一种名为Tianmouc的视觉芯片,结合了混合像素阵列和并行异构读出架构。利用互补视觉路径的特性,Tianmouc实现了高达10,000帧/秒的高速感知,130dB的动态范围,并在空间分辨率、速度和动态范围方面达到了先进的性能。此外,它还自适应地将带宽减少了90%。我们演示了Tianmouc芯片在自动驾驶系统中的集成,展示了其在开放道路上的角落情况下实现精确、快速和稳健感知的能力。基于原语的互补感知范式有助于克服开发多样化开放世界应用视觉系统的基本限制。
引言
图像传感器在广泛的应用中起着至关重要的作用。然而,随着自动机器、机器人和人工智能等开放世界应用的普及,当前的图像传感器面临重大挑战。尽管为开放世界应用量身定制的算法已经有所发展,图像传感器在处理其感知范围之外的动态、多样和不可预测的角落情况时仍然困难重重,这导致了算法的失败。
这些挑战包括感知层面的混叠和量化误差、数据冗余和有限的动态范围,以及感知层面的语义对齐错误、延迟问题和领域转移问题。要有效解决这些角落情况,图像传感器必须在空间分辨率、速度、精度和动态范围上表现出色。然而,实现这一目标受到功率和带宽的限制。传统传感器在提高空间分辨率、速度和精度的同时,功率和带宽需求也随之增加,导致捕获能力受限和过多的数据负担。此外,鉴于角落情况的稀有性,这些传感器容易产生冗余数据,进而浪费带宽和功率资源。
与现有图像传感器相比,人类视觉系统(HVS)在开放世界环境中以其多功能性、适应性和稳健性脱颖而出。HVS将视觉刺激解释为多个视觉原语,如颜色、方向和运动,并以互补的方式将它们分配到腹侧和背侧路径。两个路径的协作有效地提供了视觉场景的统一表示。
尽管已经做出了各种努力来复制HVS的特定特征,包括硅视网膜、神经形态视觉传感器、脉冲频率调制、时间至首次脉冲和近传感计算芯片,但在有限的功率和带宽限制下,实现具有高空间分辨率、高速度、高精度和大动态范围的图像传感器仍然面临挑战。
在此,我们报告了一种受HVS多层次特性启发的互补感知范式,以及基于该范式设计的视觉芯片,名为Tianmouc。我们的范式包括基于原语的表示和两条互补视觉路径(CVP),使得将视觉场景解析为原语并将其组装到相应的路径中。这些原语包括颜色、精度、灵敏度、空间分辨率、速度、绝对强度、空间差异(SD)和时间差异(TD),作为场景全面表示的基础元素。
图一: 开放世界视觉感知的挑战及互补视觉范式的解决方案。
这几个原语很重要哈:我们再重复一遍,看看后面的算法怎么实现的:颜色、精度、灵敏度、空间分辨率、速度、绝对强度、空间差异(SD)和时间差异(TD)
互补视觉芯片的设计
在物理感知系统中实施互补感知范式面临许多挑战。设计像素阵列时,必须能够在同一焦平面上同时解析光电信息转换为相应的原语。此外,两条路径的读出架构必须包含能够以不同数据分布和格式编码电信息的异构模块。
如图2a所示,Tianmouc芯片采用90nm CMOS背照式技术制造,由两个核心部分组成:一个用于将光信息转换为电信号的混合像素阵列和一个用于构建两个CVP的并行异构读出架构。受光感受器细胞启发,混合像素阵列包括具有不同特性的锥体启发像素和杆状启发像素,例如颜色、响应模式、分辨率和灵敏度。这些像素可以将视觉信息解析为特定颜色(红色、绿色和蓝色)和白色光谱,作为颜色对立的原语。它们还可以通过高低电荷到电转换增益进行四种不同的灵敏度调整,从而通过使用高增益模式的低噪声和低增益模式的高饱和容量来实现高动态范围。锥体启发像素设计为4µm的细间距用于绝对强度感知,而杆状启发像素则具有8µm和16µm两种较大感受野,分别用于感知TD和SD。使用时空连续像素架构,通过高密度像素内存来促进TD和SD计算。具体来说,杆状启发像素以乒乓行为缓存历史电压信号,以在AOP读出中实现连续的TD计算。同一块内的杆状启发像素的内存可以重组以计算SD,如图2b中的操作阶段所示。完整的混合像素阵列包括320×320个锥体启发像素和160×160个杆状启发像素。关于这两种类型像素的更多细节见方法和扩展数据图2a,b。
所以,上述原语在芯片设计中的实现方式是:
颜色:像素可以将视觉信息解析为特定颜色。
精度:高精度的模拟到数字转换器。
灵敏度:通过高低电荷到电转换增益进行四种不同的灵敏度调整。
空间分辨率:高增益模式的低噪声和低增益模式的高饱和容量来实现高动态范围。
绝对强度:锥体启发像素设计为4µm的细间距。
空间差异(SD)和时间差异(TD):而杆状启发像素则具有8µm和16µm两种较大感受野,分别用于感知TD和SD(图二b)。
电信号沿两条路径传播时表现出不同的特征,包括数据分布和稀疏性的差异。这些差异需要使用不同的方法将信号编码为具有适当速度和精度的数字数据。为解决这一挑战,芯片采用并行异构读出架构。对于COP,绝对强度信号到密集矩阵的精确转换是必需的。通过单斜坡模拟到数字架构实现。相比之下,AOP需要快速编码具有对称拉普拉斯分布和高稀疏性的时空差异信号。因此,采用专门的读出架构(图2c),其中使用可编程阈值滤波器最小化计算的TD和SD信号中的冗余和噪声,同时保留关键信息。随后,这些信号使用具有可配置精度的快速极性自适应数字到模拟转换器进行量化。此外,数据包化器用于实现稀疏可变精度TD和SD信号的无损压缩(扩展数据图2d)。这种方法提供了自适应能力,以减少带宽并进一步提高AOP的操作速度。关于读出架构的更多细节可以在方法和扩展数据图2c,d中找到。图2d展示了Tianmouc芯片的整体布局光学显微照片。
图二: 芯片设架构。
专门的读出结构就很像生物视觉信息感知里面的信息融合的decoding环节。
Tianmouc特性
对Tianmouc芯片的量子效率、动态范围、响应速度、功率和带宽等性能指标进行了全面评估。芯片在COP和AOP中均表现出高量子效率,在530nm处AOP达到72%,COP达到69%(图3a)。通过结合COP和AOP中不同增益模式的动态范围,Tianmouc实现了130dB的总体动态范围,检测到的最低功率密度为2.71×10^-3 µW cm^-2,最高功率密度为8.04×10^3 µW cm^-2,符合公认标准(方法和扩展数据图4)。
Tianmouc芯片的互补路径实现了高空间分辨率和高精度(图3c),并在不可预测的环境中表现出高鲁棒性(图3d)。为了消除AOP引起的空间混叠和量化误差,Tianmouc芯片通过COP的高空间分辨率和高精度来互补使用。尽管图3c中AOP-SD捕获的标准西门子星图可能因其低分辨率而显得扭曲,COP却能准确记录它。如图3d所示,在包含水平快速移动和旋转物体且照明条件变化的场景中,突然的光闪扰乱了AOP-TD,但AOP-SD不受影响。通过将COP图像与AOP-TD和AOP-SD结合,高速视频的逐帧重构(方法)可以实现高速运动的恢复。
利用AOP,Tianmouc展示了从757帧/秒到10,000帧/秒可重配置速度和从±7位到±1位可变精度的快速响应能力。这补充了相对较慢的COP速度,后者在30帧/秒和10位精度下保持持续响应。Tianmouc的高速能力通过瞬态闪电测试进行了评估。如图3e所示,Tianmouc可以在50mV阈值水平下以±1位精度在10,000帧/秒下操作,捕获快速闪电。值得注意的是,由于高稀疏性,AOP在瞬态现象期间仅消耗约50兆字节每秒(MB s^-1)的峰值带宽,相比具有等效时空分辨率和精度的传统相机(640×320×10,000×2),带宽减少了90%。关于高速响应和时间反混叠的更多演示可以在扩展数据图5中找到。
我们使用与参考文献41中提出的相似的综合优值(FOM)来评估Tianmouc芯片的整体性能。该FOM结合了开放世界感知的关键性能指标,将最大采样率(Rmax)和动态范围整合到统一指标(Rmax × 动态范围)中。在图3f中,将FOM与功率和带宽分别对各种传感器进行了对比。根据操作模式的不同,Tianmouc的功率消耗在368mW至419.7mW之间变化(扩展数据图5b),典型模式下平均为368mW(±7位,1,515帧/秒,无阈值)。如图3f所示,Tianmouc实现了先进的FOM,超越了现有的神经形态传感器和传统图像传感器,同时保持了低功率和低带宽消耗。详细的计算和比较可以在方法中找到。
Tianmouc芯片展示了在不可预测环境中的高鲁棒性(图3d)。为了消除AOP引起的空间混叠和量化误差,Tianmouc芯片通过使用空间分辨率和精度进行互补。尽管图3c中AOP-SD捕获的标准西门子星图可能因其低分辨率而显得扭曲,COP却能准确记录它。如图3d所示,在包含水平快速移动和旋转物体且照明条件变化的场景中,突然的光闪扰乱了AOP-TD,但AOP-SD不受影响。通过将COP图像与AOP-TD和AOP-SD结合,高速视频的逐帧重构(方法)可以实现高速运动的恢复。
利用AOP,Tianmouc展示了从757帧/秒到10,000帧/秒可重配置速度和从±7位到±1位可变精度的快速响应能力。这补充了相对较慢的COP速度,后者在30帧/秒和10位精度下保持持续响应。Tianmouc的高速能力通过瞬态闪电测试进行了评估。如图3e所示,Tianmouc可以在50mV阈值水平下以±1位精度在10,000帧/秒下操作,捕获快速闪电。值得注意的是,由于高稀疏性,AOP在瞬态现象期间仅消耗约50兆字节每秒(MB s^-1)的峰值带宽,相比具有等效时空分辨率和精度的传统相机(640×320×10,000×2),带宽减少了90%。关于高速响应和时间反混叠的更多演示可以在扩展数据图5中找到。
我们使用与参考文献41中提出的相似的综合优值(FOM)来评估Tianmouc芯片的整体性能。该FOM结合了开放世界感知的关键性能指标,将最大采样率(Rmax)和动态范围整合到统一指标(Rmax × 动态范围)中。在图3f中,将FOM与功率和带宽分别对各种传感器进行了对比。根据操作模式的不同,Tianmouc的功率消耗在368mW至419.7mW之间变化(扩展数据图5b),典型模式下平均为368mW(±7位,1,515帧/秒,无阈值)。如图3f所示,Tianmouc实现了先进的FOM,超越了现有的神经形态传感器和传统图像传感器,同时保持了低功率和低带宽消耗。详细的计算和比较可以在方法中找到。
图三: 芯片性能评估。
开放世界的性能
互补感知范式提供了广阔的设计空间,并为感知算法提供了出色的数据源。为了在开放世界场景中评估这些能力,我们开发了一种集成Tianmouc芯片的汽车驾驶感知系统(图4a),并在开放道路上进行评估,涉及各种角落情况,如闪光干扰、高动态范围场景、领域转移问题(异常物体)和具有多个角落情况的复杂场景。为了利用Tianmouc架构的优势,我们设计了一种多路径算法,专门用于利用AOP和COP的互补特性。在感知层面,原语的完整性允许重建原始场景并适应极端照明。同时,在感知层面,AOP提供变化、纹理和运动的即时感知,而COP提供细粒度的语义细节。通过同步这些结果,我们实现了对场景的全面理解。
图四:开放世界的双通路感知性能。
第一个场景(图4b)评估了突然光闪引起的照明变化对传感器鲁棒性的影响。Tianmouc在保持高感知性能的同时,对这种光闪表现出显著的抗扰能力。对于实时高动态范围感知(图4c),两个路径的互补灵敏度使Tianmouc能够感知高亮度对比,而不牺牲速度。在感知层面,AOP通过高速光流过滤器补充了异常检测能力,AOP-TD和AOP-SD的协作精确计算了运动方向和速度,以识别异常(图4d)。图4e展示了在自然光线较暗、交通环境混乱和人工光线突然干扰的复杂场景下,Tianmouc展示了同时处理多个角落情况的能力。CVP算法通过互补和多样的结果提供了充足的决策空间。根据mAP0.50(平均精度;补充说明8)条形图,CVP在所有案例中均显示出优于单一路径的整体检测性能,同时带宽消耗低于80 MB s^-1,平均功率消耗为328mW。实验结果表明,Tianmouc能够有效适应极端光照环境,并提供域不变的多层次感知能力。实验设置和算法的更多细节见方法和扩展数据图6-8,算法的性能评估见补充说明7和8。
互补感知范式提供了广阔的设计空间,并为感知算法提供了出色的数据源。为了在开放世界场景中评估这些能力,我们开发了一种集成Tianmouc芯片的汽车驾驶感知系统(图4a),并在开放道路上进行评估,涉及各种角落情况,如闪光干扰、高动态范围场景、领域转移问题(异常物体)和具有多个角落情况的复杂场景。为了利用Tianmouc架构的优势,我们设计了一种多路径算法,专门用于利用AOP和COP的互补特性。在感知层面,原语的完整性允许重建原始场景并适应极端照明。同时,在感知层面,AOP提供变化、纹理和运动的即时感知,而COP提供细粒度的语义细节。通过同步这些结果,我们实现了对场景的全面理解。
第一个场景(图4b)评估了突然光闪引起的照明变化对传感器鲁棒性的影响。Tianmouc在保持高感知性能的同时,对这种光闪表现出显著的抗扰能力。对于实时高动态范围感知(图4c),两个路径的互补灵敏度使Tianmouc能够感知高亮度对比,而不牺牲速度。在感知层面,AOP通过高速光流过滤器补充了异常检测能力,AOP-TD和AOP-SD的协作精确计算了运动方向和速度,以识别异常(图4d)。图4e展示了在自然光线较暗、交通环境混乱和人工光线突然干扰的复杂场景下,Tianmouc展示了同时处理多个角落情况的能力。CVP算法通过互补和多样的结果提供了充足的决策空间。根据mAP0.50(平均精度;补充说明8)条形图,CVP在所有案例中均显示出优于单一路径的整体检测性能,同时带宽消耗低于80 MB s^-1,平均功率消耗为328mW。实验结果表明,Tianmouc能够有效适应极端光照环境,并提供域不变的多层次感知能力。实验设置和算法的更多细节见方法和扩展数据图6-8,算法的性能评估见补充说明7和8。
讨论
Tianmouc在捕捉认知的复杂细节同时能够快速响应不可预测的紧急情况和运动。它提供了高速度、高动态范围和高精度,同时保持了自适应的低带宽。与现有的感知范式不同,我们的方法克服了同质表示引起的低效问题,并能够应对开放世界中的各种角落情况。与当前的神经形态视觉传感器相比,Tianmouc在极端环境中表现出更高的精度和全面的信息,同时保持快速和稳健的响应。重要的是,其高可扩展性允许通过先进制造实现高空间分辨率,适用于对分辨率敏感的应用,且具有低功率和带宽要求。原语还可以设计为具有片上重配置和路径分配灵活性,能够主动适应不同任务要求。具有基于原语的互补路径的视觉传感器提供了独特的数据源和感知平台,为开发开放世界应用的高级计算机视觉理论、算法和系统开辟了新途径。