AAAI2025 | UrBench: 面向多视角城市场景的多模态大模型综合评测基准, 代码开源

文摘   2025-01-18 08:06   荷兰  

 RS   DL 

论文介绍

题目:UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文:https://arxiv.org/abs/2412.19492

项目:https://opendatalab.github.io/UrBench/

代码:https://github.com/opendatalab/UrBench

年份:2025
单位:上海 AI Lab,中山大学,商汤科技,武汉大学

创新点

  • 多维度评估:提出UrBench基准,覆盖四个评估维度(地理定位、场景推理、场景理解、物体理解),包含14种任务类型。
  • 多视角数据:集成街景、卫星视角及跨视角的图像任务,这是其他基准中少有的扩展。
  • 跨视角注释:开发跨视角检测匹配算法,生成精确的实例级标注。
  • 综合问答生成:结合模型生成、规则生成和人工生成方法,确保问题多样性与高质量。

数据基准制作流程


1. 数据收集 (Data Collection)

UrBench的数据来源主要包括自主采集和公开数据集,覆盖街景视角和卫星视角两种数据类型:
  • 自主采集数据:
    • 2604张街景图像(Google Street View)。
    • 4239张卫星图像(Google Earth, Level 19)。
    • 1965对街景与卫星图像的跨视角配对,基于地理坐标和时间一致性收集。
    • 卫星图像配备来自OpenStreetMap的地物注释。
    • 公开数据集:
      • Cityscapes Dataset:用于城市场景理解任务。
      • Mapillary Traffic Sign Dataset:用于交通标志推理任务。
      • VIGOR Dataset:支持跨视角地理定位任务。
      • IM2GPS Dataset:提供图像到城市检索任务样本。

      2. 数据预处理 (Data Pre-processing)

      • 跨视角匹配:
        • 使用预训练的Grounding DINO模型检测街景图像中的物体边界框。
        • 利用光线追踪技术将街景边界框映射到卫星图像。
        • 通过交并比(IoU)筛选匹配对(IoU > 0.5)。
        • 人工验证跨视角匹配的准确性,剔除错误配对。
        • 统一注释整合:
          • 整合来自多数据源的注释,包括地物类别、位置及跨视角关联信息。
          • 构建一个综合注释数据库,为后续问题生成和任务设计提供基础。

          3. 问题生成 (Question Generation)

          UrBench的问题生成方法结合了多种技术手段,确保任务的多样性和高质量。
          • 基于LMM生成 (LMM-based):
            • 针对推理类任务(如角色化推理),使用大规模多模态模型(如GPT-4、Gemini)生成问题和答案对。
            • 为减少模型自测偏差,使用多种LMM生成样本,并通过人工审核去除不合理问题。
            • 基于规则生成 (Rule-based):
              • 对于结构化任务(如图像检索、方向识别),基于注释信息使用规则模板生成问题,例如通过图像元数据生成问题。
              • 基于人工生成 (Human-based):
                • 对于复杂任务(如场景比较),人工标注员直接设计问题和答案,确保覆盖更广泛的真实场景。

                4. 质量控制 (Quality Control)

                为确保数据的准确性和问题生成的科学性,UrBench设计了多阶段的质量验证流程:

                • 跨视角一致性检查:
                  • 确保街景和卫星图像的时间和地理位置一致,剔除不符合要求的样本。
                  • 注释验证:
                    • 通过人工校验筛选出准确的跨视角物体匹配结果。
                    • 问题质量审查:
                      • 对LMM生成的问题和答案进行多轮人工检查,剔除错误或偏差。
                      • 验证规则生成和人工生成问题的完整性与准确性。

                      UrBench数据内容

                      数据内容
                      UrBench的数据内容丰富,涵盖多种城市场景与任务维度。
                      • 图像内容:
                        • 街景图像:捕捉地面水平视角的城市细节,如建筑、街道、交通工具和行人。
                        • 卫星图像:展现从上空垂直俯视的城市布局,包括道路网络、建筑密度和绿地分布。
                        • 跨视角图像:通过街景与卫星图像的配对,反映不同视角下对同一城市场景的综合描述。
                        • 注释信息:
                          • 每张卫星图像附带地物注释,包括建筑、道路、绿地等类别的精确位置与属性。
                          • 街景图像注释覆盖了物体边界框和属性,如交通标志位置与用途。
                          • 跨视角图像提供实例级匹配信息,支持模型理解多视角关系。
                          • 问题样本:

                            数据集设计了覆盖城市任务的11,600个问题,分布于14种任务类型,涵盖四个主要维度。

                            • 1. 地理定位 (Geo-Localization)

                              • 图像检索 (Image Retrieval, IR)
                              • 城市检索 (City Retrieval, CR)
                              • 方向识别 (Orientation, OR)
                              • 相机定位 (Camera Localization, CL)
                            • 2. 场景推理 (Scene Reasoning)

                              • 视觉提示推理 (Visual Prompt Reasoning, VPR)
                              • 交通标志推理 (Traffic Sign Reasoning, TSR)
                              • 角色化推理 (Role-based Reasoning, RBR)
                            • 3. 场景理解 (Scene Understanding)

                              • 场景识别 (Scene Recognition, SR)
                              • 场景比较 (Scene Comparison, SC)
                              • 道路理解 (Road Understanding, RU)
                              • 计数 (Counting, CO)
                            • 4. 物体理解 (Object Understanding)

                              • 物体定位 (Object Grounding, OG)
                              • 跨视角物体匹配 (Object Matching, OM)
                              • 物体属性识别 (Object Attribute Recognition, OAR)

                          数据统计

                          • 问题分布:
                            • 共计11,600个问题。
                            • 测试集包含10,483个问题,验证集包含1,117个问题。
                            • 视角类型:
                              • 跨视角问题:4,208个问题。
                              • 卫星视角问题:2,618个问题。
                              • 单街景视角问题:1,694个问题。
                              • 全景街景视角问题:1,735个问题。
                              • 多街景视角问题:228个问题。
                              • 视觉提示(Visual Prompt):
                                • 带视觉提示问题:4,227个。
                                • 不带视觉提示问题:6,256个。
                                • 答案类型:
                                  • 多选题:8,920个问题。
                                  • 开放式问题:1,563个问题。
                                  • 图像使用情况:
                                    • 单张图像:5,522个问题。
                                    • 双图像:3,485个问题。
                                    • 四图像:753个问题。
                                    • 五图像:723个问题

                                    数据特点

                                    • 地理多样性:数据覆盖11个城市,增强了任务样本的区域适用性。
                                    • 多视角支持:提供单视角、跨视角和多视角样本,适用于复杂的城市场景任务。
                                    • 高分辨率:图像分辨率足够高,确保细节信息丰富。
                                    • 综合性:数据集整合了街景和卫星视角,注重两者之间的关联,适合用于评估跨视角任务的模型性能。

                                    实验和分析

                                    实验设置

                                    • 评估模型:
                                      • 闭源模型:GPT-4o、Gemini-1.5-Flash、Claude-3.5-Sonnet。
                                      • 开源模型:包括LLaVA系列、InternVL系列、VILA系列等。
                                      • 测试了21个多模态模型,包括:
                                      • 模型分为单图像模型和多图像模型。
                                      • 问题类型:
                                        • 多选题(Multiple Choice)和开放题(Open-Ended)。
                                        • 评估协议:
                                          • 使用统一的设置(温度为0,贪婪解码)。
                                          • 对于不支持多图像输入的模型,通过图像拼接处理。
                                          • 基准:
                                            • 与随机猜测和人类专家的表现进行比较。
                                            不同任务表现
                                            • 地理定位任务中,方向识别和相机定位表现较差,仅略高于随机猜测。

                                            • 场景推理和角色化推理表现相对较好,符合模型的训练目标。

                                            • 跨视角任务的整体表现较弱,准确率在40%以下。
                                            视角一致性
                                            • 模型在街景任务中表现最好(平均54.6%),卫星视角次之(42.3%),跨视角任务最差(36.2%)。

                                            闭源与开源模型

                                            • 闭源模型整体优于开源模型,但差距正在缩小。
                                            精度对比

                                            Geo-Localization

                                            Scene Reasoning

                                            Scene Understanding

                                            Object Understanding

                                            更多图表分析可见原文


                                            如需加群、投稿、合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
                                            我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:交流群说明

                                            公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

                                            往期推荐

                                            论文赏读 | ECCV24 | 使用全景-BEV联合检索网络进行跨视角图像地理定位

                                            2024-08-17

                                            论文赏读 |CVPR24 |无监督用于跨视角地理定位,夏桂松教授团队新作

                                            2024-04-06

                                            AAAI2025 | 无人机地理定位新基准, 数据来自于游戏GTA V

                                            2025-01-07


                                              欢迎关注  


                                            分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



                                            欢迎加入遥感与深度学习交流群(点此加入)

                                            遥感与深度学习
                                            聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
                                             最新文章