华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

创业 2024-12-13 08:22 北京

本文介绍了DAT，首个室外无人机主动跟踪基准，用于评估智能体在开放世界主动跟踪任务上的跨场景跨域能力。实验结果表明，现有的视觉主动跟踪模型在复杂场景中的特征提取能力有限，且其感知范围和应用场景受限于固定前向视角。本文深入分析并理论证明了固定前向视角的局限性，并提出了基于强化学习的R-VAT模型。该模型能适应可变视角，实验证明了其高度有效性。

论文标题：
A Cross-Scene Benchmark for Open-World Drone Active Tracking</spa
论文链接：
https://arxiv.org/pdf/2412.00744
源码链接：
https://github.com/SHWplus/DAT_Benchmark
文档链接：
https://dat-benchmark.tech
主页链接：
https://dat-benchmark.framer.website/

一、引言

图1：DAT基准的场景示例图

1.1 什么是视觉主动跟踪？

视觉主动跟踪是一种基于视觉观测，控制观测系统运动，从而实现自动跟踪物体的任务设定。相比之下，被动视觉跟踪则是在固定相机位姿的情况下，逐帧主动预测目标边界框。视觉跟踪被广泛用于现实场景，例如：安保巡检和无人机跟踪拍摄等。

视觉主动跟踪方法主要分成两阶段VAT方法和基于强化学习的VAT方法，两阶段VAT利用目标跟踪模型预测物体位置，再利用控制模型生成控制信号。该方法主要受限于大量的人力标注成本以及跨场景时控制模型的参数调校。而基于强化学习的VAT方法则是利用强化学习算法，直接根据图像输出控制信号，具有较好的适应性。

1.2 基于强化学习的视觉主动跟踪智能体

最近，强化学习算法被越来越多地用于VAT任务，智能体在仿真环境中利用强化学习算法进行数据采集和模型训练。尽管近期提出的强化学习方法在对应的仿真环境中初步验证了强化学习在VAT任务上的可行性，但仍面临三大局限：（1）缺乏统一的基准。当前的仿真环境范围小，复杂度低，数量有限，无法充分验证智能体的能力。且现有环境提供的跟踪器和目标数量有限，无法为不同任务提供基准。（2）对具有复杂干扰的大型环境适应能力差。开放世界视觉主动跟踪涉及大范围高动态环境，以及频繁的环境干扰。直接在复杂环境进行训练常常导致收敛速度慢，跟踪鲁棒性差的问题。（3）对行为多样的跟踪目标适应能力差。现有方法假设跟踪器采用固定水平前向视角，显著限制跟踪器感知范围，且导致奖励函数在视角变化时无法准确反映跟踪性能。

1.3 统一的无人机视觉主动跟踪智能体

统一的无人机视觉主动跟踪基准。DAT基准提供了6个场景4种天气共24个大范围高复杂度的仿真场景（见图1）。24个场景可以充分验证智能体跨场景和跨域适应的能力。此外，DAT提供了两种跟踪器，5大类共24种常见跟踪目标，且提供了即插即用的接口，可供用户自主配置模型和控制器。此外，DAT基准利用webots仿真软件搭建，具有真实的动力学仿真性能，并使用SUMO交通仿真软件管理目标行为，提供多样的目标路径和行为。

基于强化学习的视觉主动跟踪新方法。我们提出了基于强化学习的主动视觉跟踪方法。具体而言，我们设计了基于课程学习的训练策略，逐步提升智能体在大型复杂场景中的性能。此外，我们设计了以目标为中心的奖励函数，在不同视角下给智能体提供准确的跟踪性能评估。与现有方法基于物理距离的奖励函数设计不同，我们在图像平面进行奖励设计，避免距离图像中心更远的目标获得更高的奖励。

图2：无人机视觉主动跟踪流程

二、DAT Benchmark构建

图3：DAT基准统计信息与元素示例图

2.1 多样场景构建

DAT基准提供的6种场景分别为：城镇(Citystreet)，乡村(Village)，大都市(Downtown)，湖泊水域(Lake)，农田(Farmland)和沙漠(Desert)。本文从区域面积，楼房密度，颜色丰富度，道路密度，复杂地形密度，树木密度和隧道密度七个方面建模现实场景的复杂度（6个环境的复杂度统计见图3（a）)。其中，区域面积，楼房密度和色彩丰富度主要影响视觉背景信息；道路密度和复杂地形密度主要影响跟踪目标的行为，而树木密度和隧道密度则主要影响环境元素对跟踪目标的遮蔽程度。此外，DAT基准提供的四种天气包括晴天(day)，黑夜(night)，雾天(foggy)和雪天(snow)。其中，黑夜降亮度和光照均匀度，雾天降低视野能见度，雪天改变环境色调。

2.2 多样跟踪器和目标构建

本文提供了无人机和地面机器人作为备选的跟踪器，其中，无人机选择DJI Matrice 100作为默认机型。此外，DAT提供了6种常用的运动和视觉传感器（见图3（c）），包括相机，雷达，GPS，IMU，陀螺仪和加速度计。同时，DAT也提供了汽车，摩托车，行人，轮式机器人和足式机器人5类共24种常见的跟踪目标（见图3（d）），并提供了即插即用的接口可供用户更换自主设计的机器人模型和控制器。为建模真实场景下跟踪目标运行的随机性，DAT使用SUMO随机化跟踪目标种类和外观，并统一对其路径和行为进行管理。

三、R-VAT基线模型

3.1 基于课程学习的训练策略

本文利用强化学习PPO算法并设计了基于课程学习的训练策略，逐步提升智能体的性能，加快收敛速度。具体而言，课程学习分成两个阶段，在第一阶段中，跟踪目标的轨迹为直线，且环境中不存在遮蔽和复杂的干扰情况，智能体学习将目标保持在图像中心的任务意图。而在第二阶段中，智能体在视觉复杂，跟踪目标轨迹多样的情况下训练，基于第一阶段的任务理解，提升智能体的视觉泛化能力。

3.2 以目标为中心的奖励函数设计

图4：以目标为中心的奖励示意图

为准确反映在可变俯视视角下智能体的跟踪性能，本文提出了以目标为中心的奖励函数设计方法。与现有方法直接利用物理距离不同，本文获取了图像平面在地平面上的投影，并在图像层面进行奖励函数设计，确保距离图像中心更远的目标获得更高的奖励。具体而言，本文设计的奖励函数表达式为：

其中，x参数用于衡量目标点距离图像中心的远近。为进一步说明上述奖励函数的设计过程，我们提供了详细的坐标变换推导（具体见原论文4.3节）。此外，为了阐述本文以目标为中心的奖励设计的优越性以及基于固定前向视角设计下，利用物理距离进行奖励设计的局限性，本文理论证明了在固定前向视角下，基于距离的奖励函数设计与本文的设计等效。此外，我们还证明了在视角发生变化时，基于距离的奖励函数在x和y方向均无法正确反映跟踪性能。详细证明见原论文附录C.1节。

四、实验

4.1 实验设定

本文对比了我们提出的R-VAT与现有最佳方法在场景内，跨场景以及跨域测试下的跟踪性能。具体而言，本文选择以6种场景的day天气作为训练场景，则场景内测试则是在训练场景中进行测试；跨场景测试是在其余的5种场景，相同天气情况下进行测试，而跨域测试则是在相同的场景，其余3种不同的天气情况下进行测试。本文选择使用累计奖励（CR）和跟踪成功率（TSR）衡量智能体的性能，其中，CR衡量智能体将目标保持在图像中心点的性能，而TSR衡量智能体将目标保持在图像范围中的能力。

4.2 实验结果

表1：场景内和跨场景测试实验结果表（注：CR最大值为375）

场景内测试性能。本文提出的R-VAT模型相对于D-VAT模型在CR指标上提升，在TSR指标提升。

跨场景测试性能。本文提出的R-VAT模型相对于D-VAT模型在CR指标上平均提升，在TSR指标上平均提升。

表2：跨域测试实验结果表（注：CR最大值为375）

跨域测试性能。本文提出的R-VAT模型相对于D-VAT模型在CR指标上平均提升，在TSR指标上平均提升。

五、结论与潜在影响

本文提出了针对无人机视觉主动跟踪任务的统一基准DAT，可用于测试智能体的跨域和跨场景性能。DAT基准提供了24个大型复杂的室外场景地图，建模了高保真的机器人动力学模型，并使用了真实的跟踪目标管理方案。此外，本文提出了强化学习的基准算法R-VAT。具体而言，该方法采用了课程学习训练策略，提升智能体在复杂环境中的性能；同时，我们设计了以目标为中心的奖励函数，准确反映跟踪器跟踪性能。实验表明，R-VAT方法性能显著优于现有最好的VAT方法。

DAT基准旨在推动无人机视觉主动跟踪研究的发展，其可能对以下关键领域产生重要的影响：（1）强化学习中的遗忘问题，（2）强化学习的鲁棒性问题，（3）多智能体强化学习，以及（4）从仿真到现实的迁移。

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉