最新综述 | 无人机与大模型的融合: 迈向自主低空智能的概述与展望, 数据与资源汇总开源!

文摘   2025-01-16 09:10   荷兰  

 RS   DL 

论文介绍

题目:UAVs Meet LLMs: Overviews and Perspectives Toward Agentic Low-Altitude Mobility

论文:https://arxiv.org/abs/2501.02341

主页:https://github.com/Hub-Tian/UAVs_Meet_LLMs

年份:2025
单位:中科院自动化所,澳门科技大学,北京理工大学,西北工业大学,湖南大学,匈牙利奥布达大学
注:本篇由论文原作者审核

主要内容

  • 无人机与大语言模型的结合潜力:文章探讨了无人机(UAV)与大语言模型(LLM)的结合如何推动低空自主移动系统的发展,提升其智能化水平。
  • 系统性回顾与分析:文章对无人机的关键组成部分、最新的LLM技术、多模态数据集以及结合应用场景进行了全面梳理和分析。
  • 智能无人机的开发方向:强调开发具备自主感知、推理、记忆和工具使用能力的无人机智能体架构,以实现更复杂任务的自主执行。

无人机系统概述


功能模块

  1. 感知模块:收集和解释来自RGB、LiDAR、雷达等传感器的数据。结合计算机视觉和机器学习,提升物体检测、语义分割和运动估计的准确性。

  2. 导航模块:功能:基于GPS、IMU、视觉SLAM等技术,提供实时位置估计和轨迹规划。

  3. 规划模块:基于环境感知规划飞行路径。多无人机协同规划,避免碰撞,提高任务效率。

  4. 控制模块:低层次控制命令的生成,确保飞行稳定性。

  5. 通信模块:无人机与地面站及其他设备之间的数据交换。

  6. 交互模块:无人机与人类的互动,支持语音、手势、虚拟现实等交互方式。

  7. 载荷模块:携带特定任务设备(如相机、传感器)。

无人机形态

  • 固定翼无人机:速度快、续航长,但不能悬停。
  • 多旋翼无人机:操作简单,可垂直起降,但续航短。
  • 无人直升机:拥有高载荷能力、良好的抗风能力、长续航能力且能垂直起降,但结构复杂,维护成本较高,速度较固定翼无人机慢。
  • 混合翼无人机:结合固定翼和多旋翼的优点,但结构复杂。
  • 扑翼无人机:噪音低、推进效率高、机动性强,但控制复杂且载荷能力有限。
  • 无人飞艇:低成本,低噪音,但速度低,受风影响大。

无人机群

  • 特点:多无人机协同执行任务,提高效率和冗余度。
  • 核心技术:
    • 任务分配:基于遗传算法、拍卖机制分配任务。
    • 通信架构:分布式通信(FANET)提高灵活性和容错能力。
    • 路径规划:优化飞行路径,避免碰撞。
    • 队形控制:采用集中式、分布式或去中心化算法实现群体行为。

基础模型


大语言模型(LLMs)

  • 核心能力:

    • 泛化能力:通过大规模训练数据实现零样本和小样本学习。

    • 复杂问题解决能力:如“链式推理”(Chain of Thought, CoT)分解复杂问题。

  • 代表模型:

    • OpenAI的GPT系列(GPT-3、GPT-4),注重语言理解与推理。

    • Meta的LLaMA系列,支持多语言任务。

    • Google的PaLM系列,具有跨模态能力。

视觉语言模型(VLMs)

  • 特点:结合视觉和文本,支持多模态任务(如图像问答、图像字幕生成)。

  • 代表模型:GPT-4V、LLaVA、BLIP等。

视觉基础模型(VFMs)

  • 应用:目标检测、图像分割、深度估计等。

  • 代表模型:Grounding-DINO、SAM(Segment Anything Model)。

UAVs数据和平台

数据集概览

通用领域数据集
  1. 环境感知(Environmental Perception)
  • 任务:目标检测、图像分割、深度估计等。
  • 典型数据集:
    • AirFisheye:包含超过26,000张鱼眼图像,支持城市环境中的目标检测、分割和深度估计。
    • SynDrone:使用模拟器生成的大规模合成数据集,包含72,000个注释样本,适用于城市场景检测与分割任务。
    • WildUAV:提供高分辨率RGB图像和深度图真值,专注于复杂环境中的单目深度估计任务。


  • 事件识别(Event Recognition)
    • 任务:识别灾害、交通事故、社会活动等场景中的事件。
    • 典型数据集:
      • CapERA:2864个短视频,每个视频包含5条描述,支持视觉问答(VQA)任务。
      • ERA:涵盖安全、灾难、交通、体育、社会活动、生产活动六大类事件类别的视频数据
      • VIRAT:包含静态地面视频和动态无人机视频,覆盖23种事件类型。
  • 目标跟踪(Object Tracking)
    • 任务:目标的检测、跟踪及多模态分析。
    • 典型数据集:
      • WebUAV-3M:4500段视频,包含223个目标类别,支持自然语言和音频描述。
      • TNL2K:2000段视频,标注了目标边界框和自然语言描述,适用于跨模态跟踪研究。
      • VOT2020:包含短期、实时、长期跟踪等五种专门任务的数据集。
  • 动作识别(Action Recognition)
    • 任务:通过无人机视频理解人体动作或手势。
    • 典型数据集:
      • UAV-Human:超过67,000段视频,包含155种动作类别,支持动作识别、姿态估计和人员再识别任务。
      • Aeriform In-Action:专注于高分辨率视频中的人体动作识别,涵盖13类动作。
  • 导航与定位(Navigation and Localization)
    • 任务:自然语言引导导航、多视图地理定位等。
    • 典型数据集:
      • CityNav:包含32,000条自然语言描述,支持城市级3D环境中的语言引导导航任务。

      • AerialVLN:集成视觉和语言信息,提供复杂环境中的无人机飞行路径。

      • University-1652:结合无人机、地面和卫星视角的图像,支持跨视图地理定位任务。

    特定领域数据集

    针对特定应用领域设计的数据集,比如:

    交通(Transportation)

    • VisDrone:交通监控与多目标跟踪,数据包括高分辨率图像和视频,支持实时监测与分析。
    • TrafficNight:专注于夜间交通场景的多模态数据(RGB与热成像)。

    遥感(Remote Sensing)

    • DOTA:包含高分辨率遥感图像的目标检测数据集,涵盖飞机、船只等类别。
    • DIOR:广泛用于遥感影像中的多目标检测。
    • xView:大规模遥感数据,支持多任务应用,包括分类与检测。

    农业(Agriculture)

    • UAV-Agri:高光谱数据集,用于作物健康监测。
    • CoFly-WeedDB:涵盖棉花地杂草检测的高分辨率图像。
    • WEED-2C:聚焦于两种杂草检测,支持精准农业。

    工业(Industry)

    • UAPD:用于检测道路裂缝的无人机影像数据集。
    • InsPLAD:包含17类电力设施的检测数据集,支持基础设施维护。

    应急响应(Emergency Response)

    • FloodNet:洪水后的场景理解数据集,用于紧急救援评估。
    • Aerial SAR:涵盖自然灾害监测和搜索救援任务。
    • DisasterUAV:多场景数据集,包括地震、火灾和洪水,用于灾害评估与响应。

    军事(Military)

    • MOCO:专注于军事场景的多模态数据,支持目标检测与监控。

    野生动物保护(Wildlife)

    • WAID:涵盖六种野生动物和多种环境的无人机影像数据,用于种群监测和行为分析。

    3D仿真平台

    仿真平台为无人机的开发、测试和验证提供了安全、低成本的实验环境。主要特点:

    • 复杂场景模拟:支持动态环境(如障碍物、光照变化)的逼真模拟。
    • 风险评估与优化:避免真实环境中的实验风险。
    典型仿真平台
    • AirSim:开源平台,支持复杂环境和多传感器模拟,用于路径规划和避障研究。
    • CARLA:自动驾驶仿真平台,可扩展用于无人机与地面交通协同规划。
    • NVIDIA Isaac Sim:提供高精度物理建模和实时渲染,用于导航和目标跟踪任务。
    • AerialVLN Simulator:集成虚拟到真实任务的高保真无人机智能体研究平台。
    • Embodied City:虚拟城市仿真平台,支持多智能体交互和城市规划优化。

    基于大模型的无人机技术进展

    视觉感知(Visual Perception)

    • 子领域:目标检测、语义分割、深度估计、视觉字幕生成、视觉问答。
    • 关键进展:
      • 通过VLMs(如CLIP、Grounding DINO)和LLMs改进无人机的目标检测和场景理解能力。
      • 使用SAM(Segment Anything Model)实现更高效的图像分割。

    视觉语言导航(Vision-Language Navigation, VLN)

    • 子领域:室内导航、室外导航、目标搜索。
    • 关键进展:
      • VLMs与自然语言处理模型结合,支持无人机从自然语言指令中生成导航策略。
      • 发展更复杂的多模态任务,如目标跟踪和搜索任务。

    规划(Planning)

    • 子领域:路径优化、任务分配、自适应任务优化。
    • 关键进展:
      • 引入LLMs生成动态路径规划,结合多模态数据优化任务执行。
      • 支持动态环境中的复杂任务规划。

    飞行控制(Flight Control)

    • 子领域:单体无人机控制、无人机集群控制。
    • 关键进展:
      • 强化学习和LLMs结合,提高飞行控制的智能化程度。
      • 针对复杂任务,支持无人机群的自主协同与任务优化。

    基础设施(Infrastructures)

    • 数据集的构建与处理,无人机框架与平台。
    • 关键进展:
      • 将FMs融入无人机的软件和硬件基础设施,提升数据处理能力。
      • 开发新的工具和平台。

    典型应用场景

    • 监控(Surveillance):如城市交通监控。

    • 物流(Logistics):如无人机配送任务。

    • 应急响应(Emergency Response):如灾害场景的搜索和救援。


    Agentic UAV

    本节提出了一个通用框架,用于整合基础模型(FMs)与无人机系统(UAVs),实现更高层次的自主性和智能化,即“Agentic UAV”(具备代理特性的无人机)。

    核心模块

    • Data Module(数据模块)
    • 管理多模态数据(视觉、文本、深度图等),确保高质量数据输入。支持数据的收集、预处理、存储,为模型训练和推理提供基础保障。
    • FM Module(基础模型模块)
      • 模型选择根据任务需求选择最适合的基础模型(如LLM、VLM)。
      • 模型优化通过微调和架构改进提升模型的效率和任务适应性。
    • Knowledge Module(知识模块)负责知识的存储、组织与检索,通过动态知识更新支持推理和决策。集成知识图谱与语义表示,提供逻辑推理能力。
    • Tools Module(工具模块)提供任务执行所需的工具接口,实现传感器控制、任务分解与工具调用。支持多任务协调,提升系统执行效率。
    • Agent Module(代理模块)整合各模块功能,实现自主感知、推理、决策和行动。作为系统核心,支持低空移动和复杂环境任务执行。
    未来方向
    • 模型轻量化和优化:通过模型选择、优化和任务适配,使基础模型在无人机资源有限的情况下更加高效。

    • 多模态融合:进一步集成视觉、语言和三维数据模型,提升无人机在复杂动态环境中的表现。

    • 自主智能增强:围绕感知、记忆、推理和工具利用,构建具备更高自主性的无人机系统。

    • 实时决策和适应性:提高系统处理实时环境变化的能力,增强任务执行效率和精度


    更多图表分析可见原文


    公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
    我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:方向群说明

    公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

    往期推荐

    AAAI2025 | MMTracker: 结合Mamba和YOLO的无人机多目标跟踪, 代码开源

    2025-01-13

    AAAI2025 | 无人机地理定位新基准, 数据来自于游戏GTA V

    2025-01-07

    NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

    2024-10-22


      欢迎关注  


    分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



    欢迎加入遥感与深度学习交流群(点此加入)

    遥感与深度学习
    聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
     最新文章