写在前面
模仿学习的最新进展在机器人控制和具身智能方面展现出了巨大的潜力。然而,在多样化的相机观测中实现稳健的泛化仍然是一个关键挑战。这里介绍了一个基于视频的空间感知框架,该框架利用3D空间表示来解决环境多变性的问题,特别是光照变化的处理。方法将一种新颖的图像增强技术AugBlender与基于互联网规模数据训练的最新单目深度估计模型相结合。这些组件共同构成了一个旨在增强动态场景中鲁棒性和适应性的完整系统。结果表明,该方法显著提高了不同相机曝光条件下的成功率,而先前模型在这些条件下性能会崩溃。我们的发现强调了基于视频的空间感知模型在提升端到端机器人学习鲁棒性方面的潜力,为具身智能领域可扩展、低成本的解决方案铺平了道路。
内容出自国内首个具身智能全栈学习社区:具身智能之心知识星球,这里包含所有你想要的。
一些介绍
深度学习和策略规划领域的最新进展,极大地推动了具身人工智能的发展,特别是在模仿学习方面。机器人现在在执行任务时展现出了令人印象深刻的灵巧性。然而,由于在动态环境中训练数据有限且对感知模型韧性关注不足,实现稳健性能仍然是一个挑战。模仿学习数据集通常很小,主要由在控制良好的实验室环境中拍摄的、光照和布局一致的视频组成。这种受限的数据多样性,加上人类演示的劳动密集型特点,限制了可扩展性,并使模型在部署时对环境的微小变化(如光照或相机变化)敏感。
我们从自动驾驶汽车研究中汲取灵感,这些研究中的感知模型被优化以适应多样的现实世界条件,旨在为机器人感知模型带来类似的鲁棒性。自动驾驶汽车系统不仅依赖于多视图RGB和空间数据,还依赖于连续的视频数据来预测复杂、动态环境中的行为。通过借鉴该领域的空间增强技术,可以增强RGB观测数据,并整合时间动态,以构建更具韧性的3D空间表示,从而在陌生环境中提升机器人的感知能力。
计算机视觉已经产生了在互联网规模数据上训练的模型,这些模型能够很好地泛化到新环境中。特别值得一提的是,单目深度估计技术的进步使得能够从RGB帧中提取深度信息,这对于模仿学习等物理交互中的感知模型至关重要。利用这些最先进的模型可能是增强机器人感知系统鲁棒性和泛化能力的关键,从而弥合受控实验室环境与现实世界环境复杂性之间的鸿沟。
本研究旨在弥合受控实验室环境与机器人在现实世界中遇到的复杂、动态环境之间的鸿沟。通过构建一个统一的架构,我们的框架利用时间动态和多模态3D空间表示来解决模仿学习中的关键局限性。通过全面的实验和消融研究,提出的方法证明了在应对环境变化(尤其是光照变化)方面显著提升了韧性。
工作的主要贡献如下:
空间与光照鲁棒性:引入了AugBlender,这是一种新颖的数据增强算法,通过添加受控的RGB图像损坏来扩展训练分布,从而实现对分布外(OOD)光照条件的韧性。将这些损坏的图像与来自单目深度估计模型Depth Anything V2的深度图相结合,增强了系统对环境变化的鲁棒性。
经济高效的基于视频的解决方案:方法在不使用昂贵的空间传感器的情况下,实现了稳健的基于视频的感知。在低成本的配置(机械臂、两个摄像头和RTX 3090 GPU)中使用深度估计模型即可实现。
可扩展且可泛化的框架:即插即用设计能够无缝集成到现有框架中,使机器人在不同条件下实现可扩展且灵活的感知。
相关工作介绍
部署机器人模型所面临的挑战
在目标检测基准测试中,关于如何在非受控环境中保持基于视觉的模型性能,已经进行了广泛的研究。在自动驾驶研究中,针对常见环境干扰(如恶劣天气和光照条件)的处理取得了显著进展。
在机器人领域,类似挑战同样存在,甚至往往更加明显,因为机器人通常被设置在封闭的实验室环境中,具有稳定的光照和一致的视角。这些受控条件使得模型在部署到工厂或家庭等动态的真实世界环境中时,难以保持性能。提高模仿学习模型鲁棒性的努力大多集中在处理嘈杂的演示和缓解专家行为与智能体行为之间的领域偏移上。然而,这些方法主要解决的是行为不一致性问题,而不是训练数据内的领域偏移或计算机视觉模型的固有局限性。这里提出利用空间和多模态数据来增强模型的鲁棒性。这种设置也提供了一个机会,来探索如何融合多种感官模态以提高模仿学习感知模型在真实世界环境中的韧性。
空间学习以增强机器人感知的鲁棒性
使用多模态空间感知模型来增强鲁棒性最近已显示出令人鼓舞的结果,特别是在自动驾驶领域,将空间信息与RGB数据相结合显著提高了在不同环境下的感知性能。在机器人领域,深度相机提供的3D数据已被广泛采用,以提供额外的空间上下文。然而,现有方法往往未能充分利用深度信息来减轻在机器人任务中经常出现的自然干扰,如光照变化和传感器噪声。其他3D感知方法,包括常用于自动驾驶系统的激光雷达(LiDAR)和多视角3D重建,提供了宝贵的空间见解,但存在实际限制。这些方法通常成本高昂,需要定期校准,并且/或者会带来巨大的计算负担,使得它们在许多机器人应用中不太可行。
单目深度估计提供了一种实用解决方案,能够直接从RGB视频的单个帧中导出深度图,从而无需额外的传感硬件。最近的进展,如专为稳健单目深度估计优化的基于DINOv2的模型Depth Anything V2,提供了实时性能且计算开销极低,使其特别适合资源受限的机器人应用。尽管利用单目深度进行一般感知任务的研究越来越多,但据我们所知,目前还没有现成的模仿学习框架整合了单目深度估计来增强对环境变化的鲁棒性。这为探索深度增强的RGB输入如何解决动态环境中机器人感知系统固有的脆弱性提供了大有可为的机会。
我们提出了一种新颖且轻量级的解决方案,利用单目深度估计来增强模仿学习模型的鲁棒性,从而解决了传统机器人感知系统面临的关键挑战。方法将随机损坏的RGB数据与未损坏的深度信息相结合,创建了一种丰富空间上下文的多模态融合。
方法介绍
主要架构如图1所示,其中包含两个新颖的处理模块:1) AugBlender pipeline:生成从分布内(ID)到分布外(OOD)示例的损坏图像候选;2) 深度生成模块:基于单目RGB通道进行深度估计。上述两个模块生成的对齐低维数据和采样视觉输出随后被融合到一个基于金字塔特征网络的视觉编码器中,并最终发送到动作预测模块,该模块是基于Transformer的DDPM。
通过融合从视频中采样的损坏RGB图像和未损坏的深度信息,我们的方法鼓励模型在推理过程中,当RGB输入偏离训练分布时,利用深度数据来适应OOD状态。这种方法增强了模型对环境变化的鲁棒性,特别是对那些由光照变化引起的变化。因此方法能够使模型在具有挑战性的条件下有效运行,例如在相机曝光极低且RGB数据几乎无法使用的情况下,通过利用深度数据为任务完成提供足够的信息。
单目深度估计模型
将深度信息融入我们的模型,通过提供多模态数据增强了鲁棒性,使模仿学习模型能够在训练和推理过程中利用不同的模态。这种多模态方法使模型能够适应环境变化,特别是解决光照条件变化的问题,这是我们的重点(参见图2)。选择单目深度估计作为深度生成方法,因为它仅依赖于RGB数据,无需额外硬件即可实现无缝集成。单目深度估计架构的最新进展展示了实时性能、高准确性和鲁棒性,使其适合我们的应用。
我们选择了Depth Anything V2作为我们的深度估计模型,因为它表现出强大的性能和实时推理速度。Depth Anything V2基于为单目深度估计优化的DINOv2架构,已证明对计算机视觉中的各种常见干扰具有鲁棒性,这与我们增强模型韧性的目标一致(图2)。
为了加快训练速度和减少内存使用,我们预处理了所有训练片段视频,使用基于ViT-B的Depth Anything V2模型提取深度信息,并将其与相应的RGB数据进行对齐。在推理过程中,我们使用了更轻量级的基于ViT-S的模型,以进一步提高推理速度,同时不显著牺牲深度估计质量。
AugBlender
在AugMix的基础上,引入了AugBlender:一种旨在通过训练期间整合分布内(ID)和分布外(OOD)RGB图像来增强多模态感知模型鲁棒性的新型算法(图1)。与专注于结合随机增强以保持在原始数据分布内的AugMix不同,AugBlender故意引入OOD变化,以创建RGB数据偏离预期模式的场景。通过纳入这些OOD样本,AugBlender鼓励模型在RGB输入不可靠时更多地依赖深度数据,从而有效地利用多模态输入的互补优势。这种方法确保了模型即使在RGB数据可能变得不可靠的挑战性条件下也能保持可靠性能。
如算法1所述,AugBlender利用由参数β控制的概率机制来决定是通过混合各种随机增强的组合还是通过应用不混合的随机直接增强序列来生成增强图像。混合权重从Dirichlet分布中随机采样,而最终的混合参数λ决定了增强应用于训练图像的程度。
为了加强深度图像和受损RGB图像之间的对齐,我们仅对训练图像应用了基于颜色的损坏,如色调调整、饱和度变化、反转色(solarization)、伽马校正和类似的变换。这确保了图像的空间结构保持一致,从而能够与深度数据正确对齐,这对于有效的多模态融合至关重要。
在实验中,将逻辑门参数β设置为0.16,这有效地平衡了分布内(ID)和分布外(OOD)图像的生成。这种方法产生了一个多样化的训练数据集,使模型即使在面对偏离典型训练分布的RGB图像时也能有效运行,从而提高了模型在不同环境条件下的泛化能力。
Vision Encoder
为了增强对不同尺度物体的鲁棒性,采用了分层方法,即利用具有ResNet34主干网络的特征金字塔网络(FPN)。选择ResNet34作为视觉编码器,是因为它与扩散策略结合使用时表现出卓越的性能。
鉴于我们的模型处理多视图图像,我们为每个机器人操作视角分别配置了视觉编码器,且它们之间不共享权重。这种设计选择使每个编码器能够专注于处理来自其特定视角的图像,从而可能捕获与该视角相关的独特特征。
从FPN不同层级获得的分层特征图进行了空间对齐,并进行了全局平均池化。然后,将这些池化后的特征连接起来,以形成每个时间步观测值的综合表示。这种方法有效地捕捉了环境中的多尺度信息,增强了模型在不同物体尺寸和距离上的泛化能力。
Robotic Learning Model
本文采用的机器人学习模型是Diffusion Policy,这是一种基于人类专家演示的最新行为克隆方法,它能够使机器人根据观测数据实时生成动作。Diffusion Policy利用概率扩散过程,通过降噪序列,以多模态观测数据为条件,对机器人与其环境之间的复杂交互动力学进行建模。该框架整合了来自多个过去时间步的多视图RGB输入和机器人状态信息,使模型能够生成与专家行为高度一致的动作。尽管我们的实验专门使用了与Diffusion Policy相结合的这一感知模型,但该方法具有通用性,可应用于任何利用RGB观测数据进行决策制定的策略框架。
本研究采用了基于Transformer的Diffusion Policy,并使用了默认的超参数。该模型采用均方根误差(RMSE)作为损失函数。这一决策是基于对更高数值精度的需求,因为当处理非常小的误差幅度时,RMSE相比均方误差(MSE)会产生稍大的值。
Data Flow
元数据包括来自两个安装的RGB摄像机的视频流(一个位于前方,另一个安装在常规工业机器人手腕上),以及表示每个时间戳末端执行器绝对空间坐标的低维数据序列。在我们的设置中,这些坐标包括X、Y、Z位置、横滚角、俯仰角、偏航角方向以及夹爪状态(开或关),坐标原点位于机械臂基座中心。
输入数据的总采样率为30赫兹(摄像机数据和机器人数据均为30赫兹),并带有唯一的时间戳。然后,将最后N个样本按顺序组合,代表N个观测步骤。图像数据经过两个图像处理模块后,与低维数据拼接,作为视觉编码器的输入。模型最后一层的最终输出是表示末端执行器绝对空间位置的顺序数据。此过程一直迭代,直到任务完成。
实验分析
在实验室外运行的机器人经常面临复杂的照明条件,但目前还没有标准化的基准数据集来评估机器人感知模型在这些环境因素下的鲁棒性。为了解决上述受控实验室环境的局限性,并模拟真实环境中多变的照明变化,我们设计了实验,将曝光度设置为主要变量。本研究试图通过实施模拟真实场景中常见自然照明变化的受控测试来填补这一空白。
照明与曝光设置
使用10至170毫秒的曝光范围来标准化测试条件,该值表示相机传感器暴露在光线下的持续时间。此范围使我们能够在无需受控实验室环境的情况下捕获各种照明条件。选择10毫秒作为下限,这基于人类感知近似于接近黑暗的状态(见图2),而选择170毫秒作为上限,以避免过亮的光线妨碍物体定位。通过选择这一实用范围,我们确保我们的评估在各种真实世界照明场景下都具有相关性和可行性。为了进一步控制测试,在不同时间(包括清晨和傍晚)进行了评估,并使用移动应用程序记录照度,以确保读数的准确性和一致性。
任务描述
为了评估模型在这些不同条件下的性能,使用了从同行设置改编的定制任务。这些任务涉及简单、可定制的对象和直观的设计,便于直接评估感知鲁棒性。“纸杯堆叠”(CupStack)任务要求机器人按指定顺序堆叠三个彩色纸杯,而“拾取小物体”(PickSmall)和“拾取大物体”(PickBig)任务则涉及选择特定的立方体并将其放置在指定的容器(一个杯子托盘)上。图3展示了这些任务的演示。我们选择这些任务是因为它们要么以颜色为区分,要么以大小为区分,使我们能够检查模型对光照变化的敏感性。我们的目标是确定那些不强烈依赖颜色的任务是否受光照变化的影响较小。
Evaluation Metric
为了确保消融研究具有科学严谨性,采用了一个简单而有效的指标:在选定的10个曝光设置(10、20、40、60、80、100、120、140、160和170)下,对模型的性能进行平均。对于每次测试,邀请2-3名人类评估者来评估模型操作的质量,如果评估者一致认为操作可接受,则视为测试成功。每个模型在每个曝光水平下进行了20-50次测试,以计算成功率,最终的平均分数代表了模型在不同且复杂的照明条件下的鲁棒性。
实验配置与数据集
为了严格评估曝光变化对模型性能的影响,我们整理了三个数据集:(1)原始数据集,其曝光设置固定为120;(2)多变曝光数据集,包含多个演示中曝光值在50至160范围内变化的数据;(3)综合数据集,结合了固定曝光(62.5%)和多变曝光(37.5%)的数据,由于我们直观地将其混合,因此该数据集比之前的数据集更大。这些数据集使我们能够直接比较模型在一致和变化的光照条件下的性能。
Equipment
我们的硬件包括一个简单的工业级机械臂和两个摄像头。一个摄像头被放置在机器人前方的第三人称视角位置(见图1和4d),而另一个摄像头则被安装在机器人的手腕上,以提供特写视角(见图2和4a)。图4b和4c展示了实验所需的道具。
模型候选者
大多数模仿学习算法主要是为模拟环境设计的,难以轻松适应实际应用。因此,我们选择的基线方法和竞争方法是扩散策略(Diffusion Policy,DP),它已在模拟环境和真实世界中均被证明有效。这里训练了自己的DP模型,并进行了详尽的超参数调整以确保最佳性能,还进一步将训练方法应用于配置相似的扩散策略。在机器人学习中,确定模型是否已完成足够训练可能具有挑战性,因为损失曲线往往缺乏可靠性。我们没有选择在每个训练步骤都严格测试模型性能,而是根据专家经验,让每个模型进行一致且足够的训练时间。这种方法意味着总训练时间可能有所不同,但通常在配备RTX 3090的情况下,每个模型需要大约24小时。我们评估了五个模型候选者,它们都具有类似的动作预测模块,但视觉编码器设置不同:(1)普通DP,(2)使用多变数据集的DP,(3)使用Depth Anything V2的DP,(4)使用AugBlender的DP,以及(5)使用我们提出的方法的DP。
Results and Discussion
实验的主要发现总结在表1中,该表比较了在不同的曝光设置下,五个不同模型架构在三个任务中的表现。我们的消融研究进一步表明,采用我们的训练策略,模型即使在极端条件下也表现出非凡的韧性,这凸显了方法的有效性。
为了定量评估模型的性能,采用成功率作为评价指标。实验的主要发现总结在表1中,该表展示了在不同曝光设置下,五个不同模型架构在三个任务中的比较结果。在三个任务中的10个不同曝光水平(范围从10到170)上,我们的模型在每个任务的10种场景中,有8种场景的表现均优于其他四个基线模型。具体来说,在“纸杯堆叠”任务中,模型的平均成功率是次优模型的两倍以上。在“拾取小物体”和“拾取大物体”任务中,我们的模型分别将其他四个模型的平均成功率提高了46.43%和41.28%。此外消融研究表明,采用我们的训练策略,模型在极端条件下表现出非凡的韧性。在其他四个基线模型在曝光水平低至10、20和40时未能通过“纸杯堆叠”任务的情况下,我们的模型在这三个场景中始终保持81%的高平均成功率。平均而言,与其他四个模型的平均成功率相比,我们的模型在极端条件(曝光水平低于40或高于160)下,将“拾取小物体”任务的成功率提高了57.89%,将“拾取大物体”任务的成功率提高了72.56%,这凸显了我们方法的有效性。此外,我们的模型在各种光照环境下表现出卓越的鲁棒性和适应性。这些结果表明,与其他四个基线模型相比,我们的模型在优越性、韧性和鲁棒性方面均无与伦比。
数据补偿
如表1所示,在曝光水平约为100的情况下,使用原始数据集训练的模型取得了较高的成功率,但在不同曝光设置下进行评估时,其性能显著下降。这一结果表明,标准模型对光照条件高度敏感,且对曝光变化缺乏鲁棒性。出乎意料的是,使用不同曝光数据集训练的模型在跨曝光范围上并未表现出更好的泛化能力;其性能曲线与原始模型相似,在训练曝光范围之外,成功率急剧下降,甚至整体性能也有所降低。我们假设,模型对曝光变化的敏感性可能会将不同的光照解释为环境知识的重大变化,从而导致学习不稳定。
使用合并数据集训练的模型表现出了更高的鲁棒性,在曝光水平约为120时保持了稳定的性能,并且与其他模型相比,其性能范围更广。实验表明,在数据集大小有限的情况下,曝光变化可能会减少单个条件下的有效数据,从而限制模型的适应性。然而,随着数据集大小的增加,模型似乎能够更好地利用分布式曝光条件,这从使用合并数据集后性能的提升中可见一斑。
方法补偿
结果表明,当数据保持在同一分布范围内时,仅增加训练数据的多样性并不能增强模型对不同曝光水平的鲁棒性。使用更大的数据集进行测试确实带来了整体上的改进,但在极端曝光(例如约10或170)下,性能仍然会下降。
在实际操作中,为机器人学习添加标注数据是一项颇具挑战性的任务,因为需要投入大量人力。然而,我们提出的方法无需人工干预即可提高鲁棒性。例如,将深度数据融入扩散模型中可以减少高曝光(高于120)下的性能下降,而AugBlender则能在更广泛的曝光范围内扩展性能,尽管在极端曝光下效果有所减弱。
结合这些方法几乎可以消除因曝光变化而引起的性能问题,仅在极低曝光(10-20)下出现性能下降,此时相机几乎处于“失明”状态。这些结果表明,提出的方法显著提高了机器人在不同光照条件下的学习稳定性,解决了以往设置中的一个关键局限。
Task Analysis
在CupStack任务中(见表1),观察到的曝光水平约为10时的性能下降,可归因于测试期间在特定世界状态下生成的策略轨迹中存在的噪声。这种噪声干扰了任务的完成,尤其是在低光照条件下,模型难以保持完成任务的正确顺序。
值得注意的是,在CupStack任务中,模型在这些条件下对深度信息的依赖可能是导致其无法准确区分单个杯子,从而导致任务顺序错误的原因之一。这些发现表明,虽然基于深度的线索在低光照场景中具有一定的价值,但对于需要精确对象识别和排序的任务来说,它们是不够的。进一步的优化可能包括增强视觉特征提取,以改善在不同光照条件下的对象识别能力,从而使具有顺序依赖性的任务性能更加可靠。
与CupStack相比(见表1),在PickBig和PickSmall任务上训练的模型性能下降更为平缓。这种差异很可能是由于PickBig和PickSmall的状态空间较小,训练期间初始位置的微小偏差导致模型过度依赖机器人姿态数据。因此,模型学会了依赖机械臂的状态来生成策略轨迹,从而导致泛化能力有限。结果,它难以区分大块和小块,并且对初始块位置的微小变化表现出较低的鲁棒性。这强调了训练中使用多样化的初始条件和状态表示来提高模型在细微空间变化环境中的适应性的必要性。
一些结论
我们提出了一种统一的框架,该框架提高了机器人感知模型的泛化能力,仅需最少的硬件要求(包括一个常规的工业级机械臂、两个RGB相机和一个RTX 3090 GPU),即可在不同的光照条件下实现鲁棒性。通过将AugBlender图像增强技术与互联网规模训练的深度估计模型Depth Anything V2相结合,我们的方法为视觉运动策略学习提供了一种即插即用的解决方案,该方案可以无缝集成到现有框架中。实验结果表明,我们的模型在各种光照曝光度下(包括极低能见度场景)均保持了高性能,从而显著提高了鲁棒性。消融研究验证了每个组件的独特贡献,表明我们的方法显著优于基线模型和带有曝光变化数据的基线模型。
这项工作强调了在低成本设置中实现稳健的视觉运动策略学习的实用性,揭示了多模态空间数据在增强感知模型鲁棒性方面的潜力。我们的方法有助于开发能够在动态和陌生环境中可靠运行的机器人感知系统。
参考
[1] Spatially Visual Perception for End-to-End Robotic Learning
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。