RS DL
论文介绍
题目:UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios
会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)
论文:https://arxiv.org/abs/2412.19492
项目:https://opendatalab.github.io/UrBench/
代码:https://github.com/opendatalab/UrBench
创新点
多维度评估:提出UrBench基准,覆盖四个评估维度(地理定位、场景推理、场景理解、物体理解),包含14种任务类型。 多视角数据:集成街景、卫星视角及跨视角的图像任务,这是其他基准中少有的扩展。 跨视角注释:开发跨视角检测匹配算法,生成精确的实例级标注。 综合问答生成:结合模型生成、规则生成和人工生成方法,确保问题多样性与高质量。
数据基准制作流程
1. 数据收集 (Data Collection)
自主采集数据:
2604张街景图像(Google Street View)。 4239张卫星图像(Google Earth, Level 19)。 1965对街景与卫星图像的跨视角配对,基于地理坐标和时间一致性收集。 卫星图像配备来自OpenStreetMap的地物注释。
公开数据集:
Cityscapes Dataset:用于城市场景理解任务。 Mapillary Traffic Sign Dataset:用于交通标志推理任务。 VIGOR Dataset:支持跨视角地理定位任务。 IM2GPS Dataset:提供图像到城市检索任务样本。
2. 数据预处理 (Data Pre-processing)
跨视角匹配:
使用预训练的Grounding DINO模型检测街景图像中的物体边界框。 利用光线追踪技术将街景边界框映射到卫星图像。 通过交并比(IoU)筛选匹配对(IoU > 0.5)。 人工验证跨视角匹配的准确性,剔除错误配对。
统一注释整合:
整合来自多数据源的注释,包括地物类别、位置及跨视角关联信息。 构建一个综合注释数据库,为后续问题生成和任务设计提供基础。
3. 问题生成 (Question Generation)
基于LMM生成 (LMM-based):
针对推理类任务(如角色化推理),使用大规模多模态模型(如GPT-4、Gemini)生成问题和答案对。 为减少模型自测偏差,使用多种LMM生成样本,并通过人工审核去除不合理问题。
基于规则生成 (Rule-based):
对于结构化任务(如图像检索、方向识别),基于注释信息使用规则模板生成问题,例如通过图像元数据生成问题。
基于人工生成 (Human-based):
对于复杂任务(如场景比较),人工标注员直接设计问题和答案,确保覆盖更广泛的真实场景。
4. 质量控制 (Quality Control)
为确保数据的准确性和问题生成的科学性,UrBench设计了多阶段的质量验证流程:
跨视角一致性检查:
确保街景和卫星图像的时间和地理位置一致,剔除不符合要求的样本。
注释验证:
通过人工校验筛选出准确的跨视角物体匹配结果。
问题质量审查:
对LMM生成的问题和答案进行多轮人工检查,剔除错误或偏差。 验证规则生成和人工生成问题的完整性与准确性。
UrBench数据内容
图像内容:
街景图像:捕捉地面水平视角的城市细节,如建筑、街道、交通工具和行人。 卫星图像:展现从上空垂直俯视的城市布局,包括道路网络、建筑密度和绿地分布。 跨视角图像:通过街景与卫星图像的配对,反映不同视角下对同一城市场景的综合描述。
注释信息:
每张卫星图像附带地物注释,包括建筑、道路、绿地等类别的精确位置与属性。 街景图像注释覆盖了物体边界框和属性,如交通标志位置与用途。 跨视角图像提供实例级匹配信息,支持模型理解多视角关系。
问题样本:
数据集设计了覆盖城市任务的11,600个问题,分布于14种任务类型,涵盖四个主要维度。
1. 地理定位 (Geo-Localization)
图像检索 (Image Retrieval, IR) 城市检索 (City Retrieval, CR) 方向识别 (Orientation, OR) 相机定位 (Camera Localization, CL) 2. 场景推理 (Scene Reasoning)
视觉提示推理 (Visual Prompt Reasoning, VPR) 交通标志推理 (Traffic Sign Reasoning, TSR) 角色化推理 (Role-based Reasoning, RBR) 3. 场景理解 (Scene Understanding)
场景识别 (Scene Recognition, SR) 场景比较 (Scene Comparison, SC) 道路理解 (Road Understanding, RU) 计数 (Counting, CO) 4. 物体理解 (Object Understanding)
物体定位 (Object Grounding, OG) 跨视角物体匹配 (Object Matching, OM) 物体属性识别 (Object Attribute Recognition, OAR)
数据统计
问题分布:
共计11,600个问题。 测试集包含10,483个问题,验证集包含1,117个问题。
视角类型:
跨视角问题:4,208个问题。 卫星视角问题:2,618个问题。 单街景视角问题:1,694个问题。 全景街景视角问题:1,735个问题。 多街景视角问题:228个问题。
视觉提示(Visual Prompt):
带视觉提示问题:4,227个。 不带视觉提示问题:6,256个。
答案类型:
多选题:8,920个问题。 开放式问题:1,563个问题。
图像使用情况:
单张图像:5,522个问题。 双图像:3,485个问题。 四图像:753个问题。 五图像:723个问题。
数据特点
地理多样性:数据覆盖11个城市,增强了任务样本的区域适用性。 多视角支持:提供单视角、跨视角和多视角样本,适用于复杂的城市场景任务。 高分辨率:图像分辨率足够高,确保细节信息丰富。 综合性:数据集整合了街景和卫星视角,注重两者之间的关联,适合用于评估跨视角任务的模型性能。
实验和分析
实验设置
评估模型:
闭源模型:GPT-4o、Gemini-1.5-Flash、Claude-3.5-Sonnet。 开源模型:包括LLaVA系列、InternVL系列、VILA系列等。
测试了21个多模态模型,包括: 模型分为单图像模型和多图像模型。
问题类型:
多选题(Multiple Choice)和开放题(Open-Ended)。
评估协议:
使用统一的设置(温度为0,贪婪解码)。 对于不支持多图像输入的模型,通过图像拼接处理。
基准:
与随机猜测和人类专家的表现进行比较。
地理定位任务中,方向识别和相机定位表现较差,仅略高于随机猜测。
场景推理和角色化推理表现相对较好,符合模型的训练目标。
跨视角任务的整体表现较弱,准确率在40%以下。
模型在街景任务中表现最好(平均54.6%),卫星视角次之(42.3%),跨视角任务最差(36.2%)。
闭源与开源模型
闭源模型整体优于开源模型,但差距正在缩小。
Geo-Localization
Scene Reasoning
Scene Understanding
Object Understanding
更多图表分析可见原文
公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明
2024-08-17
2024-04-06
2025-01-07
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。