【RGBD数据】基于视觉和语义的室内场景理解与实时建模丨城市数据派

学术   2024-11-27 11:50   广东  

数据精英年终大冲刺开车啦!

同时报名还可享更多优惠:

任选2套同报,再减200元!

任选3套同报,再减360元!

任选4套同报,再减520元!

任选5套同报,再减700元!

任选6套同报,再减900元!

加我获取每套课程详细介绍
加我咨询和报名课程



项目基本信息
项目名称:基于视觉和语义的室内场景理解与实时建模
项目负责人:尹宝才
依托单位:大连理工大学

项目参与人:
陈雪锦 副教授 中国科学技术大学
王立春 教授 北京工业大学
贾棋 讲师 大连理工大学
袁平波 讲师 中国科学技术大学
殷晓鸿 工程师 北京工业大学
霍奕 北京工业大学
程世超 大连理工大学
周杰 中国科学技术大学
句福娇 北京工业大学


项目结题摘要

利用视觉信息对场景进行实时重建以实现主动交互功能是智能机器人的一个重大需求。人在观看场景时不仅可推断出物体的三维结构,还可以推断出不可见部分的结构,这是由于人类在推断时运用了对场景及目标物体的认知先验知识。因此,利用视觉方法解决景物三维重建问题时,需要对场景或目标物体进行认知学习和语义分析,得到语义信息,以辅助识别场景中的目标。结合已建立的典型模型数据推断目标的几何结构,并利用时空上下文进行优化。


本项目针对基于RGBD数据的室内场景理解与建模的核心问题,研究了场景深度计算、纹理与深度信息的融合方法以及多角度主动式结构分析策略;发展了室内场景的语义学习与分析技术及高效语义标注方法;建立了基于语义和视觉的室内场景理解与精细化实时构建的技术与方法,探索室内场景实时重建所面临的技术瓶颈难题。在消费级摄像设备的基础上,搭建了一个基于RGBD 数据的室内场景理解与重建的原型系统,促进了智能机器人的环境感知能力和智能化水平。


本项目针对室内场景物体尺度差异大、外观丰富、结构复杂等问题和挑战,围绕基于RGBD的室内场景理解与建模方法展开研究,严格按照项目计划书圆满完成了各项研究任务,在基于多视角的室内场景结构分析,室内场景语义表示与分析,室内场景三维结构分割和语义理解等方面取得突破和进展,并获得一系列理论创新和技术应用成果。


项目结题成果报告

以下研究成果内容摘自项目结题成果报告。该项目报告共计86页,关注城市数据派微信公众号,在微信公众号对话框中输入 241127,即可获得报告全文PDF的下载方式:



研究工作主要进展等(部分摘取)

(1)主要研究内容。

围绕上述研究目标,本项目的研究内容如图1所示:


第一,基于视觉的室内场景结构分析。主要研究通过计算机视觉的方法,结合不同视角、不同时刻采集到的图像数据,根据颜色、纹理、深度、法线等低层视觉特征,依据平面结构、多视角间关联等中层几何约束,在三维空间上进行整合分析,对室内场景进行全局化结构分析,获取场景中基本区域分割、空间布局及初步场景重建结果

第二,室内场景语义表示与分析。根据心理学研究成果,场景包含哪些物体及所包含物体间的关系(相对位置、相对比例等)是人类区分不同室内场景的依据,因此场景概念的表示及其可计算是场景理解分析的基础。室内场景语义针对室内场景、功能区域、对象、部件间的关系与属性给出定性/定量描述,为场景理解与重建提供先验知识及基础数据。



第三,视觉与语义融合的场景理解与重建。室内场景对象往往不是孤立存在的,其所在场景能够提供额外的信息帮助了解目标对象,如周围物体属性、功能等。在场景精确重构过程中,首先基于场景语义库对室内场景模型进行语义分割,结合上下文信息对场景进行初步理解;然后,通过物体基元分解的方式对目标场景中重建质量不佳或噪点较多的物体进行精细化重建;最后,结合全局场景点云补全结果,利用其时空上下文信息对重建场景进行优化,最终得到精确重建的场景模型。


(2)取得的主要研究进展、重要结果、关键数据等及其科学意义或应用前景。


下面分别介绍室内场景理解与建模理论体系中室内场景结构分析、室内场景语义表示、室内场景重建三方面的代表性工作及面向机器人交互任务的场景实时理解与重建系统框架。


I 基于视觉和语义的室内场景理解与建模理论体系

a.基于视觉的室内场景结构分析

成果一:场景深度估计


项目要求:给定2D图像,估计表征场景结构的粗糙深度图和表征物体细节的精细深度图,融合后得到最终的深度估计图。


项目进展:针对单视角图像深度估计这个病态问题,项目组通过对图像中的信息进行融合和相互约束来降低歧义性。为更有效地表达和学习场景中不同尺度的几何结构,提出一个结构感知拉普拉斯残差金字塔网络(LAPNet),以充分利用多个尺度的场景结构去预测深度。进一步,为了有效改善深度估计网络的泛化能力,项目组提出了 S2R-DepthNet,通过对图像中的结构信息和纹理信息进行解耦,先提取出图像中的结构信息,去除无关的纹理信息,再基于结构信息进行深度估计。相关成果整理成文发表至 CCFA类会议 IJCAI2019、CVPR2021(0ral)及 A类期刊 IEEE TNNLS 2021。



重要结果及关键数据:为了验证方法的有效性,项目组在公开数据集 NYUD V2 数据集上进行测试,NYU-D V2数据集包含 464 个用 Kinect 采集的 RGBD视频序列。该数据集被广泛应用于评估室内场景下单视角深度估计任务。项目组利用 50kRGBD 图像-深度对进行训练,并使用654 张矫正的图像-深度对进行测试,在该评估设置下和目前最优的方法进行了定性和定量的比较,如表1所示,项目组提出方法在除RMS外所有指标上明显优于其他方法,并且从图2可以看出,项目组方法预测的深度图恢复出了精细的场景结构和清晰的物体边界。



为了验证所提无监督域泛化深度估计网络S2R-DepthNet的有效性,项目组选用了合成数据集 SUNCG 作为训练数据集,SUNCG是一个公开的室内场景合成数据集,其包含45622个拥有各种不同房间的3D房屋建模。项目组选用了具有和 NYU-D V2 数据集相似的相机位置和参数的RGBD数据,共130190个图像-深度对作为训练数据。定量实验结果如表2所示,项目组所提方法在没有见过真实数据图像和深度数据的情况下,仍然超过了在真实数据图像训练过的域自适应的方法,实现了最优的性能。定性结果如图3所示,所提方法恢复出了场景中的精细结构信息和物体边界。




技术细节:项目组提出结构感知的拉普拉斯残差金字塔网络(LAPNet)主要由一个多尺度编码器和多尺度残差金字塔解码器组成,如图4所示。该残差金字塔解码器以一个由粗到细的机制去预测多尺度的深度图,在金字塔中上层的深度图代表了全局的场景结构,下层深度图来表达物体细节结构。为了表达出全局结构并且约束更细的场景结构的生成,设计了一个残差细化模块去预测每个尺度的残差深度图,逐渐在更精细尺度上增加场景结构细节。为了充分利用从输入图片中提取出的多尺度图像特征,提出一个自适应的稠密特征融合模块为每个尺度的深度图预测自适应地选择更有效的特征。结合残差金字塔解码器和自适应稠密的特征融合模块,所提方法有效保存了分层的场景结构,并且准确预测出大尺度的场景结构和物体细节。


为了有效改善深度估计网络的泛化能力,考虑到人类视觉系统更依赖结构信息来进行感知,比如人类可以从仅包含结构信息的草图中获取到场景的深度信息项目组设计了S2R-DepthNet,通过对图像中的结构信息和纹理信息进行解耦,先提取出图像中的结构信息,去除无关的纹理信息,再基于结构信息进行深度估计。所提 S2R-DepthNet 去除了纹理信息的影响,做到更强的泛化能力,仅在合成数据上进行训练,不接触任何目标域的真实图像,无需任何额外操作就可以直接应用在真实数据集上并取得很好的深度估计效果。


科学意义及应用前景:单视角深度估计在计算机视觉领域是一个非常具有挑战性的问题,即从单张彩色图像中预测场景深度信息,由于透视投影,该问题是一个病态的问题,项目组通过利用卷积神经网络,结合拉普拉斯金字塔设计了LAPNet,该方法有效的从单张图像精确的预测场景深度信息,并恢复出了精细的场景结构和物体边界,更进一步,为了改善深度网络的泛化能力,项目组提出S2RDepthNet 揭示并有效利用深度估计任务中最本质的结构信息,大大提升了网络的泛化能力。这对于机器人领域、自动驾驶领域和 AR/VR 等领域都有巨大的应用前景。


成果二:多视点协同场景结构分析

项目要求:给定输入彩色图像,实现从粗到细的场景语义分割


项目进展:在场景布局分析上,项目组针对单视角场景布局估计,设计了几何辅助的场景布局估计方法,结合深度和法向连同原彩色图像一起融入分割网络对室内场景的语义平面(天花板,地板,左墙,右墙,中墙)进行分割。进一步,设计了基于全景图的室内整体布局估计方法,对多视角的布局估计结果进行融合得到完整的房间布局。利用场景中的平面结构,可以进一步指导场景的三维重建。项目组提出了一种平面约束的深度估计方法,同时进行平面区域分割、三维平面预测和稠密深度估计,并设计了一种多视角正则化方法,充分利用嵌入特征在多视角间的一致性进行网络训练,缓解缺少多视角数据标注的问题。相关成果整理成文发表至国际会议 ICIP、SCI期刊Computational Visual Media上,并获得CVM 期刊2019年度最佳论文提名。


重要结果及关键数据:在单视角布局分析上,项目组首先采用一个多尺度的卷积神经网络结构提取输入图像的深度及法向信息,然后将估计得到的深度和法向连同原彩色图像一起融入分割网络对室内场景的语义平面(天花板,地板,左墙,右墙,中墙)进行分割。该分割网络建立在DeepLab-ResNet101结构的基础上,使用深度和法向作为额外通道进行输入,网络将输出五类语义平面相应的率图。实验证明,融合了深度和法向的分割网络,相较于仅使用彩色图片作为输入的传统分割网络,能生成更加准确、鲁棒的语义平面估计结果。针对分割结果中存在的边缘不规则、及虚假区域块的情况,借鉴传统布局估计的算法流程,通过直线检测、投票找消失点、射线采样这三步生成候选布局,然后利用分割网络的输出结果对候选布局进行打分并得到一个合理的初始布局,最后迭代优化得到符合投影几何约束的准确布局,结果如图5所示,其中第一行是输入彩色图像第二行是分割网络的分割结果,第三行是初始布局,第四行是最终结果,其中红线是标注布局,蓝线是预测布局。该部分工作发表于IEEEICIP2018。


......

还有更多成果内容,详见项目结题成果报告。该项目报告共计86页,关注城市数据派微信公众号,在微信公众号对话框中输入241127,即可获得报告全文PDF的下载方式。

最近有朋友问我们:为什么没有及时看到推文?因为微信改了推送规则,没有点“赞”在看,没有把我们“星标”,都有可能出现这种状况。
“星标”,不迷路!看完文章顺手点点“赞”在看,就可以准时与我们见面了~

城市数据派
专业的城市大数据服务平台,提供媒体宣传、教育培训、机构内训、全国评选等服务
 最新文章