ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

创业 2024-10-25 08:22 广东

全自动驾驶系统的纯视觉方案如特斯拉 “Tesla Vision”，仅依赖于摄像头收集的图像数据，旨在实现高效且成本效益高的自动驾驶技术。在现实场景中，视觉感知模型在面对训练数据分布外场景的泛化能力尤为关键。来自香港中文大学（深圳）、新加坡国立大学、昆仑万维和南洋理工大学的学者们提出了一种名为 MonoTTA 的单目三维检测模型的实时测试时自适应方法。该方法使模能在测试阶段实时进行快速的无监督学习，显著提升了其在未知测试分布上的表现。
MonoTTA 通过自适应挖掘高置信度物体，同时利用负标签以缓解伪标签的噪音，有效减少了模型的漏检和误检，从而帮助单目三维检测模型的实时泛化。目前代码已开源，欢迎感兴趣的小伙伴到 GitHub 查看更多展示视频。

论文标题：
MonoTTA: Fully Test-Time Adaptation for Monocular 3D Object Detection
论文链接：
https://arxiv.org/pdf/2405.19682
代码链接：
https://github.com/Hongbin98/MonoTTA

一、纯视觉方案在自动驾驶的落地应用还有多远？

近年来，纯视觉自动驾驶系统在全球汽车行业中引起了广泛关注，标志着自动驾驶技术向更高智能化的迈进。不禁让人思考，在自动驾驶领域真正实现纯视觉方案还有多远呢？

在自动驾驶领域，纯视觉方案的泛化能力至关重要。然而，传统的机器学习技术通常依赖大量预先收集的数据来训练模型。实际应用中，测试数据的分布往往与训练数据不同，这种现象称为“分布偏移”。分布偏移在实际测试中往往可能表现为：1）自然天气的变化导致道路上的物体被遮挡（如雾、雪），或光线条件显著变化；2）由于驾驶过程中的摄像头抖动，出现画面模糊；3）模型训练数据来自某个四季如春的城市，但在高纬度的城市进行测试。这些常见但棘手的分布偏移问题对深度学习模型的影响很大，往往导致模型性能显著下降，严重制约了其在室外场景的广泛部署。

纯视觉方案在遭遇分布偏移时具体会有什么问题呢？ 以单目三维检测模型为例，如图2所示，当一个经过良好训练的模型直接应用于受自然气候干扰（如雪和雾）影响的非训练分布测试场景时，相比在训练数据相同分布（即晴天）的场景，分布外测试数据中的物体检测分数会显著下降。正如我们在恶劣天气下行车，视野范围内的车辆、行人也会变得模糊不清，很难判断清楚远方到底是不是有其他车辆。然而当前的单目三维检测方法通常使用固定的分数阈值（如0.2）来进行物体检测，物体检测分数的大幅下降导致单目三维检测模型出现大量漏检、错检，从而使得模型的性能大幅下降。

图2 单目三维检测模型在域外场景下呈现物体检测分数的大幅下降，导致大量漏检、错检

那么该如何解决分布偏移呢？为了应对数据分布的潜在偏移和算法在实际应用场景中对可扩展性和时效性的需求，一种可行的范式是测试时自适应（Test-Time Adaptation, TTA）。该范式要求算法在测试阶段指导模型进行快速无监督 / 自监督学习，是当前用于提升深度模型分布外泛化能力的一种强有效工具。而其中一种更快速、更实时的子范式即实时测试时自适应（Fully Test-Time Adaptation, Fully TTA），其旨在通过在线方式利用连续的测试数据流实时调整和优化模型，缓解数据分布偏移带来的问题从而显著提高模型的性能。该范式能够满足现实场景下的算法部署与实时优化需求，因此吸引了学术界和工业界越来越多的关注。

现存Fully TTA方法却往往难以应对分布差异很大的检测任务。例如在极端的天气条件下，如图2中的雪天，单目三维检测模型往往无法生成足够的高分检测结果。通俗地说，模型在极端天气下会出现绝大部分物体对象都看不到了的问题。然而，现有的Fully TTA方法却是依赖于模型先检测出物体对象，再进行模型的实时适应。因此，这些方法在具有极大差异的分布外场景下难以对模型进行实时调整，换而言之，缺乏挖掘未被正确识别的物体（即漏检）的能力。

二、技术方案

基于前面的讨论，我们不禁思考：要怎么去设计一个TTA方法，去实现这种挖掘未被正确识别的物体（即漏检）的能力呢？ 来自香港中文大学（深圳）、新加坡国立大学、昆仑万维和南洋理工大学的学者们给出了他们的看法。学者们提出了一个针对单目三维检测模型的实时测试时自适应方法（Monocular Test-Time Adaptation，MonoTTA），其由以下两个适应策略所组成：1）基于可靠物体对象的模型自适应；2）基于负标签优化的伪标签噪音缓解。具体细节阐述如下：

图3 MonoTTA方法整体框架图

基于可靠物体对象的模型自适应：具体而言，测试数据分布的变化会导致物体对象的检测分数骤降，从而引起漏检和错检。而学者们通过分析发现，即便在域外场景下，高检测分数的物体对象仍然是相对可靠的（如下图4（a）所示）。此外，即使仅通过高分物体对象（例如，score≥0.5）来优化模型，低分和高分对象的数量都会增加（即图4（b））。这些观察启发我们要利用高分物体对象而不是所有物体对象进行模型适应，这将是一种更可靠的方式来缓解数据分布变化并发掘潜在物体对象。

图4 针对各自域外场景下的物体对象检测分数分析

基于上述观察可以发现：域外场景下高分对象不仅是相对可靠的，还可以通过高分对象的这种相对可靠的模型优化，发掘出更多的低分潜在物体对象！这启发学者们设计了适应性优化损失来利用可靠物体对象子集进行模型适应，从而缓解域外分布的测试数据检测分数下降问题，并挖掘出更多潜在对象：

这里的是在迭代伦次下的自适应阈值，这是考虑到实际测试场景的分布差异是未知的，因此开发了一种自适应策略，用于在测试图像中自动识别可靠的高分对象。

其中，为所有检测到的物体对象的平均分数，是衰减系数，而则是遵循原方法的预定义物体检测阈值。为批量大小，为单张图片下的最大检测物体对象数目，则对应每个检测物体的具体分数值。

基于负标签优化的伪标签噪音缓解：虽然通过的优化，模型能有效缓解漏检问题。但像我们先前讨论的，一种极端情况是数据分布差异还会导致高分对象的极度稀缺，如上图4（a）中的雪天场景，此时大多数对象呈现低分，无法利用高分样本以优化模型。为此，学者们开发了一个负标签正则化项，以合理利用众多低分物体对象以进行负标签学习。一方面，负标签正则化项 允许模型通过众多存在噪声的低分对象进行模型适应，从而使得模型在缓解分布变化后获得更多高分物体对象；另一方面，这一正则化项也防止了模型过度拟合噪声和简易解，例如给一个对象的所有类别分配高分。

具体地，对那些低于自适应阈值的物体对象，基于每个类别．的具体频率，求和得到最终损失值：

‍

而每个类别下的正则约束项有：

其中，是常数权重，则是具体检测物体对象对于负类别下的检测分数。

通俗来说，极端情况下模型往往难以直接辨别出物体是什么，但相较之下模型有更大的把握知道物体对象不属于某个具体类别。特别是极端场景下，会在模型适应中扮演了更重要的角色。因为它可以通过只利用低分数的对象（即否定负面类别）来缓解分布偏移，换句话说，使得模型在极端场景下仍然能够减轻分布偏移并获得更多相对高分的对象，从而为的计算奠定了关键基础。

三、实验

方法有效性：MonoTTA能为现存单目三维检测方法带来可观的性能提升：实验结果展示了探索的新方法可以在域外分布测试场景中为单目三维检测模型带来显著的改进，例如，在所制作的KITTI-C数据集上的13种类型（囊括了噪音、模糊、天气变化以及设备退化影响）的分布外偏移中，平均性能提升了137%和244%。

此外，学者们还进一步在 nuScenes 数据集的白天到黑夜（Daytime → Night）和黑夜到白天（Night → Daytime）两个在真实数据场景下做进一步实验，验证了所提出方法的有效性：

结果可视化：进一步提供了可视化结果如下图所示

并且，基于 KITTI-RAW 数据提供了相应的 demo 视频（更多示例视频见 Github 链接），其中左边为原方法，而右边则对应 MonoTTA 实时适应后的检测结果。基于单张 4090 显卡，MonoTTA 仅需约 45ms 即可适配一张 1280X384 的测试图像，即 fps >=15。相信通过量化部署优化，这个速度还能被进一步提升。

Defocus 1（画面模糊 - 等级 1）

Fog 1（雾天 - 等级 1）

Gaussian 1（高斯噪声 - 等级 1）

基于上述实验结果，有理由相信通过单目三维检测模型的实时适应，该论文所设计的方法能够有效地提高模型的泛化性能，从而提升单目三维检测在自动驾驶中的落地和应用。

作者：林宏彬
来源：公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514797&idx=2&sn=ff6c7f004981ff7a10fe5871bdf3cc49

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉