CIM-WV: 高层高密度香港都市基于实景三维城市信息模型的2D窗景语义分割数据集

文摘   2024-11-01 18:10   中国香港  




CIM-WV: 高层高密度香港都市基于实景三维城市信息模型的2D窗景语义分割数据集(CIM-WV: A 2D semantic segmentation dataset of rich window view contents in high-rise, high-density Hong Kong based on photorealistic city information models)

 

Maosu Li, Anthony G.O.Yeh & Fan Xue


摘要


大范围的窗景评估,尤其在高层高密度城市,对于精准房产估值以及建成环境改善具有重要意义。然而,窗景语义分割数据集的缺乏阻碍了窗景像素级别的准确评估。本文提出了一个基于实景三维城市信息模型(CIM)生成的2D仿真窗景(CIM-WV)语义分割数据集,该数据集包含了在香港高层高密度城市区域收集的2000张标注图像。CIM-WV包括七个语义标签,即建筑、天空、植被、道路、水体、交通工具和裸露地表。实验结果表明,在CIM-WV上训练的典型深度学习模型DeepLab V3+在分割主要景观元素(如建筑、天空、植被和水体)时,取得了优异表现(每类交并比IoU≥86.23%),并与在真实世界街景数据集Cityscapes训练的迁移学习模型相比,始终表现更佳。在香港岛和九龙半岛的测试中,基于CIM-WV训练的DeepLab V3+模型展现了鲁棒性(mIoU≥72.09%),并提升了真实世界和Google Earth生成的两种窗景图像的语义分割精度。本文的贡献有三点:首先,CIM-WV是首个公开的基于实景三维CIM生成的、具有丰富语义标注的的仿真窗景数据集;其次,比较分析表明,相较基于街景的深度学习模型,基于CIM-WV的深度学习模型对窗景评估更为准确;最后,对于城市研究人员和从业者而言,基于CIM-WV训练的公开深度学习模型能够支持基于多源窗景的城市应用,包括精准房产估值、建成环境改善以及与窗景相关的大尺度城市分析。CIM-WV可在此获取:https://doi-org.eproxy.lib.hku.hk/10.25442/hku.24647487

引用


Li, M., Yeh, A.G.O. & Xue, F. CIM-WV: A 2D semantic segmentation dataset of rich window view contents in high-rise, high-density Hong Kong based on photorealistic city information models. Urban Info 3, 12 (2024).




https://doi.org/10.1007/s44212-024-00039-7


研究内容


1.引言

多角度城市景观评估对于全面检测城市环境发展具有重要的信息学意义。例如,俯瞰视角的遥感影像被广泛用于监测土地利用、绿植曝光及建筑形态学变化。地面视角的街景图片被用于评估城市的可达性、活力和可持续性。不同于俯瞰和地面视角,来自不同高度的窗景视角是城市视图的补充,可通过垂直角度检测城市环境。作为一种新的城市视图,窗景展现了城市居民长期从居住或工作场所中观察到的邻里建成环境。

窗景评估在多个城市应用中表现出较高的社会经济价值和影响,如房产估价及建成环境改善。窗景评估通过手动和模拟方法进行。最初,研究人员通过手动拍摄窗景,以计算窗景指标。然而,手动收集限制了大规模窗景评估。最近,基于实景三维城市信息模型(CIM)生成的仿真窗景图像,使大规模评估成为可能。然而,不同高度的实景三维CIM生成的窗景与真实城市获得的遥感影像、街景不同。缺少标注的仿真窗景数据集难以支持窗景的像素级精确语义分割。因此,提供一个标注的窗景图像语义分割数据集,对于推动准确的城市规模窗景评估具有重要意义。
本文提出了一个基于实景三维CIM生成的、用于不同高度城市景观语义分割的窗景(CIM-WV)数据集。CIM-WV包含2,000张具有七个语义标签的仿真窗景,即建筑物、天空、植被、道路、水体、交通工具和裸露地表。CIM-WV的窗景来源于香港岛和九龙半岛的高层高密度城市区域。每个窗景对应900×900像素的两个图层:仿真图像和语义分割标注图像。

2.相关工作
2.1城市视图的语义分割数据集
城市视图的语义分割数据集发展不平衡。在遥感、计算机视觉和城市研究领域,已有大量的遥感影像和街景语义分割数据集。然而,尽管窗景在房地产市场、景观管理以及城市规划和设计中具有重要的社会经济价值,但标注的窗景语义分割数据集却较为稀缺。
2.2当前窗景的自动评估
日益可用的高分辨率实景三维CIM使窗景自动评估方法不断发展。然而,当前方法尚无法支持精确的像素级窗景评估。基于街景数据集迁移学习的语义分割常会导致不准确的仿真窗景评估。因此,亟需构建专门为仿真窗景设计的语义分割数据集,以推动更为精确的像素级窗景评估。
3窗景数据集CIM-WV
3.1数据规范
3.1.1 CIM-WV概览
CIM-WV数据集包含2,000张由实景三维CIM生成的仿真窗景图像,如图1(a)所示。根据《香港规划标准与准则》,采集区域位于香港湾仔区和油尖旺区的高层高密度地带。具体而言,图1(b)展示了从维多利亚港两岸采集的不同位置和朝向的窗景图像,反映了包括海景、多风格建筑、植被和道路等多样化的景观元素。图1(c)和图1(d)展示了CIM-WV数据集中不同高度的窗景图像,分别代表香港岛和九龙半岛的多层次三维城市环境。

图1. CIM-WV 在香港的采集区域;(a)位置,(b)两个采样的城市区域,以及(c)香港岛和(d)九龙半岛的2,000个窗景采集点。

CIM-WV的窗景图像是基于香港特别行政区规划署公开分享的实景三维CIM生成的。相较于图2(a)中的真实窗景,图2(b)展示了CIM-WV的一张仿真窗景图像。仿真窗景图像均在窗户中心水平向外获取。CIM-WV的窗景图像尺寸为900×900像素,视野为60度。每张窗景图像的命名方式是将其所属建筑、立面、3D坐标(经度、纬度、高度)以及朝向的ID组合在一起。

图2. 窗景视角示例;(a)真实世界中拍摄的窗景照片,(b) CIM-WV的仿真窗景图像,(c)语义分割标注。

CIM-WV包含七个语义标签,即建筑、天空、植被、道路、水体、交通工具和裸露地表。例如,建筑表示有屋顶和墙壁的建筑物;天空指的是出现在景观上方的空间。图像中代表树木、灌木和草的像素被标记为植被。这七个语义标签代表了香港城市中最常见的物体。图2(c)显示了一个典型的语义分割标注图像,其中包含了图2(b)所示仿真窗景图像中的所有七类景观元素。
3.1.2 CIM-WV的创建过程
我们通过半自动方法创建了CIM-WV。输入数据包括带有建筑高度信息的2D建筑矢量多边形和实景三维CIM。输出结果则为CIM-WV。CIM-WV的创建过程包括三步:批量生成窗景图像、清洗窗景图像以及语义标注。
第一步是批量生成窗景图像。我们充分利用了3D地理可视化平台Cesium将虚拟相机放置在每个窗户位置,捕捉如图3(b)所示的仿真窗景。具体而言,图3(a)显示了虚拟相机的位置参数,即经度、纬度和高度,这些参数根据窗户位置的3D坐标进行设置。虚拟相机的旋转参数,即航向、俯仰和横滚角,分别设置为窗户位置的朝向值、0和0。相机的视场角设置为60度,以生成CIM-WV的窗景图像。窗户位置的3D坐标和朝向值是从2D建筑矢量多边形的几何和高度属性中计算得出的。设置大建筑立面的视点间隔为20米,小建筑立面的视点间隔为5米,从而生成窗景图像。最后,我们将每个窗景图像命名并保存到数据库中。图3(c)显示,窗景图像的命名由其四个ID,即唯一ID、所属建筑ID、所属立面ID和视图ID,以及生成该窗景的虚拟相机的位置和旋转参数组成。

图3.批量生成窗景图像;(a)基于窗户位置信息的相机设置,(b)图像生成过程,(c) CIM-WV窗景图像的命名规则

下一步是窗景图像的清洗。我们手动选择了窗景图像。图4(a)显示了窗景在不同高度的分布情况,分为低层(0-30米)、中层(30-60米)和高层(≥60米)区域。图4(b)显示了东、西、南、北四个朝向的窗景数量分布相对均衡。图4(c)展示了经过手动选择后CIM-WV中七类景观元素的分布情况。总体而言,建筑和天空是CIM-WV窗景图像中的主要元素。

图4.窗户位置的数量分布:(a)高度,(b)朝向,(c) CIM-WV语义标签的数量分布

最后一步是语义标注。对仿真窗景图像进行标注会生成语义分割图像。图5展示了七种景观元素在四种典型窗景中的标注,即建筑景观、街景、山景和海景。为了确保高质量的标注结果,作者对100个具有代表性的窗景样本进行了像素级标注,并监督了通过线上招聘的专业标注人员对剩余的1,900个窗景进行标注。

图5.带有语义标注的CIM-WV典型窗景:(a)建筑景观,(b)街景,(c)山景,(d)海景

3.2 CIM-WV的特性
3.2.1 CIM生成的窗景图像
CIM-WV是首个基于实景三维CIM生成的窗景图像数据集。然而,实景三维CIM的质量也带来了CIM-WV数据质量的局限性。首先,由于CIM采集日期不连续,导致香港岛和九龙半岛窗景图像的颜色存在差异。此外,CIM-WV的窗景图像继承了来自低分辨率实景三维CIM的三种表现缺陷。首先,底层窗景图像比上层的更加容易出现扭曲。此外,近距离的窗景比远距离的更加模糊。最后,复杂的景观表面比简单的更容易出现扭曲。
3.2.2 多层次城市环境的表达
CIM-WV展示了香港高层高密度区域的多层次城市环境。CIM-WV的窗景图像描绘了不同位置、高度和朝向下的多样化城市景观(见图6)。

图6. CIM-WV窗景图像展示了不同(a)位置、(b)高度和(c)朝向下的多样化城市景观

3.3 CIM-WV的评估
首先,我们提供了基于CIM-WV的典型深度学习模型DeepLab V3+的基线评估。接着,我们将使用CIM-WV训练的DeepLab V3+模型与基于Cityscapes数据集进行训练的模型进行精度比较。然后,我们在香港的多个区域验证了训练好的DeepLab V3+模型的鲁棒性。最后,我们验证了训练好的DeepLab V3+模型在多源窗景图像上的可迁移性。
在前两个分析中,我们选取了1,400张CIM-WV窗景图像作为训练集,300张图像用于验证,最后的300张图像作为测试集。结果表明七个语义标签的数量在三个子集中分布相似。同时,香港岛和九龙半岛的窗景图像按相似的比例分布到训练、验证和测试集中。在第三个分析中,我们手动标注了60张来自香港岛西部的窗景图像,这些图像距离CIM-WV目标区域超过3.05公里,用于测试训练好的DeepLab V3+模型的鲁棒性。最后,我们标注了30张香港的真实世界拍摄的窗景图像,以及来自另外两个城市(即纽约和新加坡)的各30张通过Google Earth实景三维CIM生成的仿真窗景图像,用于初步测试训练好的DeepLab V3+模型的可迁移性。
我们使用总体准确率(OA)、平均类别准确率(mAcc)和平均交并比(mIoU)三个指标来评估DeepLab V3+模型的性能。

4实验测试
4.1实验设置
实验在一个高性能计算集群上进行,集群由7台服务器组成。具体来说,每个DeepLab V3+模型变种在分配的16核CPU、64GB RAM和一块NVIDIA V100(32GB)SXM2 GPU上进行训练。其训练环境为PyTorch(1.10)和Python(3.7)。我们微调了七个超参数,包括批大小、损失函数、优化器、学习率、调度模式、动量因子和权重衰减,以比较模型性能。我们使用了early-stop法以避免过拟合,并保存了验证集损失最小的检查点进行比较。最后,四个实验测试均在相同的开发环境中实施。
4.2结果
4.2.1基于DeepLab V3+的CIM-WV基线
总体而言,六个训练好的模型变种在分割性能上表现相似,其OA、mAcc和mIoU分别达到或超过97.49%、87.96%和76.55%。其中,使用Xception作为主干网络、OS为8的DeepLab V3+模型取得了最高的mAcc和mIoU,分别为91.17%和77.93%;而使用DRN作为主干网络、OS为16的模型则取得了最高的OA,为97.80%。相比之下,使用ResNet作为主干网络、OS为16的模型表现最差,OA、mAcc和mIoU均为最低。
对于所有六个模型,窗景中的景观元素,如建筑物、天空、植被和水体,大多被检测出,其每类IoU均超过83.21%。相比之下,道路、交通工具和裸露地表的分割效果较差,每类IoU均低于72.93%。造成道路、交通工具和裸露地表分割效果差的原因有三点。首先,近景道路被错误识别为附近的建筑物,近景平坦的建筑屋顶被识别为道路。此外,窗景图像中对交通工具表达的像素数量有限,也存在交通工具不完整表示。最后,由于裸露地表、植被和建筑物在窗景的远景层中紧密相邻,造成了这些元素之间的混淆。
此外,我们还分别在香港岛和九龙半岛的数据集上训练了六个DeepLab V3+模型,并测试了它们在当地的表现。结果显示,在香港岛集上训练的六个模型在岛屿区域中一致表现出高性能(mIoU ≥75.54%),而在九龙半岛集上训练的模型在九龙区域的mIoU均超过71.81%,窗景元素中的建筑物、天空和水体被两组训练集模型较好检测出(每类IoU ≥86.47%),而道路、交通工具和裸露地表的检测效果较差(每类IoU ≤73.42%)。对于道路、交通工具和裸露地表检测效果差的原因相似,分别是:道路和建筑物之间的混淆;不完整的小型交通工具的检测错误较多;远景层中的裸露地表、植被和建筑物因纹理相似而产生混淆。此外,不同的是,在香港岛集上训练的模型对植被和裸露地表的分割更准确,而对交通工具的检测效果比在九龙半岛集上训练的模型差。可能的原因是两地实景三维CIM的质量不一致。
4.2.2基于CIM-WV和Cityscapes的仿真窗景分割对比分析
评估结果显示,基于Cityscapes训练的DeepLab V3+模型对所有七个窗景元素的检测效果都较差,mIoU仅为34.14%。由于Cityscapes中缺少相关标签,水体被完全错误检测为道路和裸露地表。道路、交通工具和裸露地表的每类IoU较低(每类IoU ≤11.98%),这是由于不同高度窗景与地面街景的显著差异。此外,平坦的裸露地表和海面也出现了混淆。与CIM-WV训练的模型相比,基于Cityscapes训练的模型在植被和建筑物的分割上也仅表现出一半的性能。这种差异可归因于CIM生成的图像与真实窗景图像之间的差异。低分辨率纹理的近景建筑立面也被错误分割为交通工具、道路和植被。相比之下,基于CIM-WV训练的DeepLab V3+模型表现更佳,mIoU达到了76.78%。
4.2.3 训练好的DeepLab V3+模型在研究区域的鲁棒性
总体而言,该模型在香港岛和九龙半岛测试集上取得了相似的表现,mIoU超过75.78%。在未见过的香港区域的60张仿真窗景图像上,训练好的模型的mIoU略微下降至72.09%。可能的原因是模型对非主导景观元素(如道路、交通工具和裸露地表)的检测性能波动较大。相比之下,对于窗景中的主导景观元素(即建筑物、天空、植被和水体),模型获得了相似且较高的每类IoU。较高的OA值也反映了训练好的DeepLab V3+(主干网络=Xception,OS=8)在香港不同区域的整体一致分割性能。
仅在香港岛集上训练的最佳DeepLab V3+模型(主干网络=DRN,OS=16)在香港岛和九龙半岛测试集上的表现如下。该模型在香港岛仿真窗景图像上的分割性能较高,mIoU为77.20%。相比之下,模型在九龙半岛测试集上的表现大幅下降,mIoU仅为57.11%。仅在九龙半岛集上训练的最佳DeepLab V3+模型(主干网络=DRN,OS=16)对香港岛测试集的分割性能也存在下降,mIoU从73.42%下降至43.17%。显著的性能差异也反映了CIM-WV在亮度、色彩对比和建模差异等风格表现上的多样性。
4.2.4训练好的DeepLab V3+模型在学习多源视图图像中的可迁移性
对于真实世界的窗景图像分割,微调在CIM-WV上训练过的DeepLabV3+模型取得了更高的性能(mIoU = 52.22%),而从头开始训练的模型的mIoU为33.97%。植被、道路和水体的每类IoU显著提升(提升≥22.81%)。可能的原因是再利用CIM-WV上训练的DeepLab V3+模型的低维窗景特征,全面提高了模型性能。
类似的性能提升也出现在基于CIM-WV训练并通过输入纽约和新加坡的Google Earth生成仿真窗景图像进行微调的模型上。结果显示所有七个景观元素的整体一致性能提升,包括OA、mAcc、mIoU和每类IoU。
5讨论
5.1研究意义与贡献
高质量的窗景视野备受都市居民青睐。狭小的居住空间和拥挤的城市景观进一步放大了高质量窗景对人体身心健康的积极影响。大规模的窗景指标量化可以带来巨大的社会经济价值。窗景指标的量化与人类感知以及身心健康之间的相关性,可能为重塑高层高密度三维城市环境提供量化证据。
然而,传统的人工方法(如现场评估)仅限于小规模实验。尽管CIM生成的仿真窗景图像为大规模窗景评估带来了新机遇,但现有的基于深度迁移学习的自动化方法无法准确分割CIM生成的仿真窗景图像。训练于其他城市街景数据集的模型,无法准确评估CIM生成的不同高度的窗景图像。因此,具有丰富窗景内容的语义分割数据集对于推动精确的像素级窗景评估至关重要。
本研究提供了首个公开可访问的、具有丰富语义标注的窗景图像数据集。CIM-WV补充了现有的多角度城市景观数据集。实验结果表明,与基于街景的深度迁移学习相比,基于CIM-WV的深度学习能够更准确地进行窗景评估。此外,本文公开的基于CIM-WV训练的深度学习模型为城市研究者和从业者支持了新颖的多源窗景城市应用,包括精准房产估价、建成环境改善以及与窗景相关的城市分析。进一步,本文的研究发现可能还会激励研究人员进一步基于实景三维CIM再生成和分析任何视角的城市景观,如自行车、行人视角景观。同时,所提出的CIM-WV还可以促进基于投影的实景三维CIM的语义分割。
5.2局限性与未来工作
本研究存在几项局限性。首先,CIM-WV的窗景图像数量、采集区域和风格有限。此外,研究缺乏CIM-WV图像与真实世界拍摄窗景图像的质量量化比较。未来的研究方向包括对不同城市窗景模式的比较分析、CIM生成城市窗景图像的质量评估以提升分割准确性,以及结合建筑、工程领域知识对深度学习模型的可解释性分析。


作者简介



Maosu Li香港大学城市规划及设计系博士后研究员,麻省理工学院访问博士后研究员。其研究兴趣集中于城市信息学、计算与分析,主要通过三维城市信息建模、机器学习以及数据管理与分析等方法展开研究。目前主要研究三维窗景城市尺度自动化量化在房产、城市规划及建筑设计中的应用。
https://maosuli.github.io/

Anthony G.O.Ye,香港大学城市规划及设计系讲座教授及陈道涵基金教授、城市研究及城市规划中心主任、城市规划及设计系系主任、和地理信息系统研究中心主任他拥有香港大学文学学士学位、亚洲理工学院理学硕士学位以及美国雪城大学城市与区域规划硕士及博士学位。其主要研究领域涵盖土地利用规划、城市更新、新市镇开发、地理信息系统、交通与大数据、智慧城市,以及香港、中国及东南亚的城市规划与发展。学术荣誉方面,他于2003年当选为中国科学院院士,2010年当选为发展中国家科学院院士,2013年当选为英国社会科学院院士,2019年当选为香港科学院院士。他曾获得多个奖项,包括2008年联合国人居署讲座奖、2012年第53届国际大学规划院校协会年会Gill-Chin Lim博士全球奖、2016年香港大学卓越研究成就奖、2017年国际华人地理信息科学协会地理信息系统终身成就奖。他现任《Computers, Environment and Urban Systems》《Transactions in GIS》《Progress in Planning》《International Planning Studies》《Environment and Planning B》等多家国际期刊的编委会成员。他同时也是多所中国著名高校和研究机构的荣誉教授,包括北京地理研究所、同济大学、中山大学及武汉大学。
https://www.arch.hku.hk/staff/upad/yeh-anthony-g-o/


Fan Xue香港大学房地产及建设系副教授、房地产及建设系研究生课程主任、国家数字建造技术创新中心香港分中心副主任。他拥有跨学科背景,涵盖自动化工学学士、计算机工学硕士、系统工程理学博士,并长期从事建筑信息化技术的研究。他还担任国际计算机学会香港分会副会长(2021年起)、中国图形学会BIM专委会委员(2020年起),及中国建筑学会智能建造委员会委员(2020年起)。他亦是60余个国际期刊和多个国家科研基金项目的评审专家。在科研方面,他领导了多项研究项目,累计获得约1800万港币的研究经费,主要研究领域包括:建筑和城市信息建模、无导数优化、三维四维点云技术(激光雷达和探地雷达等)、区块链及分布式应用、建造信息学与城市语义学、机器学习与大数据分析。
https://frankxue.com/

END

编辑:王皓天、梁泽欣

审核/指导:乔思


转发,点赞,在看




城市信息学 Urban Informatics
《城市信息学》(Urban Informatics) 是由国际城市信息学学会(The International Society for Urban Informatics)主办的一份国际性、开放性、同行评审的期刊。
 最新文章