【RGBD数据】基于视觉和语义的室内场景理解与实时建模丨城市数据派

学术 2024-11-27 11:50 广东

数据精英年终大冲刺开车啦！

同时报名还可享更多优惠：

任选2套同报，再减200元！

任选3套同报，再减360元！

任选4套同报，再减520元！

任选5套同报，再减700元！

任选6套同报，再减900元！

加我获取每套课程详细介绍

加我咨询和报名课程

项目基本信息

项目名称：基于视觉和语义的室内场景理解与实时建模

项目负责人：尹宝才

依托单位：大连理工大学

项目参与人：

陈雪锦副教授中国科学技术大学

王立春教授北京工业大学

贾棋讲师大连理工大学

袁平波讲师中国科学技术大学

殷晓鸿工程师北京工业大学

霍奕北京工业大学

程世超大连理工大学

周杰中国科学技术大学

句福娇北京工业大学

项目结题摘要

利用视觉信息对场景进行实时重建以实现主动交互功能是智能机器人的一个重大需求。人在观看场景时不仅可推断出物体的三维结构，还可以推断出不可见部分的结构，这是由于人类在推断时运用了对场景及目标物体的认知先验知识。因此，利用视觉方法解决景物三维重建问题时，需要对场景或目标物体进行认知学习和语义分析，得到语义信息，以辅助识别场景中的目标。结合已建立的典型模型数据推断目标的几何结构，并利用时空上下文进行优化。

本项目针对基于RGBD数据的室内场景理解与建模的核心问题，研究了场景深度计算、纹理与深度信息的融合方法以及多角度主动式结构分析策略；发展了室内场景的语义学习与分析技术及高效语义标注方法；建立了基于语义和视觉的室内场景理解与精细化实时构建的技术与方法，探索室内场景实时重建所面临的技术瓶颈难题。在消费级摄像设备的基础上，搭建了一个基于RGBD 数据的室内场景理解与重建的原型系统，促进了智能机器人的环境感知能力和智能化水平。

本项目针对室内场景物体尺度差异大、外观丰富、结构复杂等问题和挑战，围绕基于RGBD的室内场景理解与建模方法展开研究，严格按照项目计划书圆满完成了各项研究任务，在基于多视角的室内场景结构分析，室内场景语义表示与分析，室内场景三维结构分割和语义理解等方面取得突破和进展，并获得一系列理论创新和技术应用成果。

项目结题成果报告

以下研究成果内容摘自项目结题成果报告。该项目报告共计86页，关注城市数据派微信公众号，在微信公众号对话框中输入 241127，即可获得报告全文PDF的下载方式：

研究工作主要进展等（部分摘取）

(1)主要研究内容。

围绕上述研究目标，本项目的研究内容如图1所示:

第一，基于视觉的室内场景结构分析。主要研究通过计算机视觉的方法，结合不同视角、不同时刻采集到的图像数据，根据颜色、纹理、深度、法线等低层视觉特征，依据平面结构、多视角间关联等中层几何约束，在三维空间上进行整合分析，对室内场景进行全局化结构分析，获取场景中基本区域分割、空间布局及初步场景重建结果

第二，室内场景语义表示与分析。根据心理学研究成果，场景包含哪些物体及所包含物体间的关系(相对位置、相对比例等)是人类区分不同室内场景的依据，因此场景概念的表示及其可计算是场景理解分析的基础。室内场景语义针对室内场景、功能区域、对象、部件间的关系与属性给出定性/定量描述，为场景理解与重建提供先验知识及基础数据。

第三，视觉与语义融合的场景理解与重建。室内场景对象往往不是孤立存在的，其所在场景能够提供额外的信息帮助了解目标对象，如周围物体属性、功能等。在场景精确重构过程中,首先基于场景语义库对室内场景模型进行语义分割，结合上下文信息对场景进行初步理解;然后，通过物体基元分解的方式对目标场景中重建质量不佳或噪点较多的物体进行精细化重建;最后，结合全局场景点云补全结果，利用其时空上下文信息对重建场景进行优化，最终得到精确重建的场景模型。

(2)取得的主要研究进展、重要结果、关键数据等及其科学意义或应用前景。

下面分别介绍室内场景理解与建模理论体系中室内场景结构分析、室内场景语义表示、室内场景重建三方面的代表性工作及面向机器人交互任务的场景实时理解与重建系统框架。

I 基于视觉和语义的室内场景理解与建模理论体系

a.基于视觉的室内场景结构分析

成果一:场景深度估计

项目要求:给定2D图像，估计表征场景结构的粗糙深度图和表征物体细节的精细深度图，融合后得到最终的深度估计图。

项目进展:针对单视角图像深度估计这个病态问题，项目组通过对图像中的信息进行融合和相互约束来降低歧义性。为更有效地表达和学习场景中不同尺度的几何结构，提出一个结构感知拉普拉斯残差金字塔网络(LAPNet)，以充分利用多个尺度的场景结构去预测深度。进一步，为了有效改善深度估计网络的泛化能力，项目组提出了 S2R-DepthNet,通过对图像中的结构信息和纹理信息进行解耦，先提取出图像中的结构信息，去除无关的纹理信息，再基于结构信息进行深度估计。相关成果整理成文发表至 CCFA类会议 IJCAI2019、CVPR2021(0ral)及 A类期刊 IEEE TNNLS 2021。

重要结果及关键数据:为了验证方法的有效性，项目组在公开数据集 NYUD V2 数据集上进行测试，NYU-D V2数据集包含 464 个用 Kinect 采集的 RGBD视频序列。该数据集被广泛应用于评估室内场景下单视角深度估计任务。项目组利用 50kRGBD 图像-深度对进行训练，并使用654 张矫正的图像-深度对进行测试，在该评估设置下和目前最优的方法进行了定性和定量的比较，如表1所示，项目组提出方法在除RMS外所有指标上明显优于其他方法，并且从图2可以看出，项目组方法预测的深度图恢复出了精细的场景结构和清晰的物体边界。

为了验证所提无监督域泛化深度估计网络S2R-DepthNet的有效性，项目组选用了合成数据集 SUNCG 作为训练数据集，SUNCG是一个公开的室内场景合成数据集，其包含45622个拥有各种不同房间的3D房屋建模。项目组选用了具有和 NYU-D V2 数据集相似的相机位置和参数的RGBD数据，共130190个图像-深度对作为训练数据。定量实验结果如表2所示，项目组所提方法在没有见过真实数据图像和深度数据的情况下,仍然超过了在真实数据图像训练过的域自适应的方法，实现了最优的性能。定性结果如图3所示，所提方法恢复出了场景中的精细结构信息和物体边界。

技术细节:项目组提出结构感知的拉普拉斯残差金字塔网络(LAPNet)主要由一个多尺度编码器和多尺度残差金字塔解码器组成，如图4所示。该残差金字塔解码器以一个由粗到细的机制去预测多尺度的深度图,在金字塔中上层的深度图代表了全局的场景结构，下层深度图来表达物体细节结构。为了表达出全局结构并且约束更细的场景结构的生成,设计了一个残差细化模块去预测每个尺度的残差深度图，逐渐在更精细尺度上增加场景结构细节。为了充分利用从输入图片中提取出的多尺度图像特征,提出一个自适应的稠密特征融合模块为每个尺度的深度图预测自适应地选择更有效的特征。结合残差金字塔解码器和自适应稠密的特征融合模块，所提方法有效保存了分层的场景结构，并且准确预测出大尺度的场景结构和物体细节。

为了有效改善深度估计网络的泛化能力，考虑到人类视觉系统更依赖结构信息来进行感知,比如人类可以从仅包含结构信息的草图中获取到场景的深度信息项目组设计了S2R-DepthNet,通过对图像中的结构信息和纹理信息进行解耦，先提取出图像中的结构信息,去除无关的纹理信息,再基于结构信息进行深度估计。所提 S2R-DepthNet 去除了纹理信息的影响，做到更强的泛化能力，仅在合成数据上进行训练，不接触任何目标域的真实图像，无需任何额外操作就可以直接应用在真实数据集上并取得很好的深度估计效果。

科学意义及应用前景:单视角深度估计在计算机视觉领域是一个非常具有挑战性的问题，即从单张彩色图像中预测场景深度信息，由于透视投影，该问题是一个病态的问题，项目组通过利用卷积神经网络，结合拉普拉斯金字塔设计了LAPNet，该方法有效的从单张图像精确的预测场景深度信息，并恢复出了精细的场景结构和物体边界,更进一步,为了改善深度网络的泛化能力,项目组提出S2RDepthNet 揭示并有效利用深度估计任务中最本质的结构信息，大大提升了网络的泛化能力。这对于机器人领域、自动驾驶领域和 AR/VR 等领域都有巨大的应用前景。

成果二:多视点协同场景结构分析

项目要求:给定输入彩色图像，实现从粗到细的场景语义分割

项目进展:在场景布局分析上，项目组针对单视角场景布局估计，设计了几何辅助的场景布局估计方法,结合深度和法向连同原彩色图像一起融入分割网络对室内场景的语义平面(天花板，地板，左墙，右墙，中墙)进行分割。进一步，设计了基于全景图的室内整体布局估计方法,对多视角的布局估计结果进行融合得到完整的房间布局。利用场景中的平面结构,可以进一步指导场景的三维重建。项目组提出了一种平面约束的深度估计方法，同时进行平面区域分割、三维平面预测和稠密深度估计，并设计了一种多视角正则化方法，充分利用嵌入特征在多视角间的一致性进行网络训练，缓解缺少多视角数据标注的问题。相关成果整理成文发表至国际会议 ICIP、SCI期刊Computational Visual Media上，并获得CVM 期刊2019年度最佳论文提名。

重要结果及关键数据:在单视角布局分析上，项目组首先采用一个多尺度的卷积神经网络结构提取输入图像的深度及法向信息,然后将估计得到的深度和法向连同原彩色图像一起融入分割网络对室内场景的语义平面(天花板，地板，左墙，右墙，中墙)进行分割。该分割网络建立在DeepLab-ResNet101结构的基础上，使用深度和法向作为额外通道进行输入，网络将输出五类语义平面相应的率图。实验证明，融合了深度和法向的分割网络，相较于仅使用彩色图片作为输入的传统分割网络，能生成更加准确、鲁棒的语义平面估计结果。针对分割结果中存在的边缘不规则、及虚假区域块的情况，借鉴传统布局估计的算法流程，通过直线检测、投票找消失点、射线采样这三步生成候选布局，然后利用分割网络的输出结果对候选布局进行打分并得到一个合理的初始布局,最后迭代优化得到符合投影几何约束的准确布局，结果如图5所示，其中第一行是输入彩色图像第二行是分割网络的分割结果，第三行是初始布局，第四行是最终结果，其中红线是标注布局，蓝线是预测布局。该部分工作发表于IEEEICIP2018。

......

还有更多成果内容，详见项目结题成果报告。该项目报告共计86页，关注城市数据派微信公众号，在微信公众号对话框中输入241127，即可获得报告全文PDF的下载方式。

最近有朋友问我们：为什么没有及时看到推文？因为微信改了推送规则，没有点“赞”或“在看”，没有把我们“星标”，都有可能出现这种状况。

加“星标”，不迷路！看完文章顺手点点“赞”或“在看”，就可以准时与我们见面了~

http://mp.weixin.qq.com/s?__biz=MzA3OTU3ODgxNA==&mid=2650678114&idx=1&sn=c4b9181e85d29c51f319f6381a2c5ce5

城市数据派

专业的城市大数据服务平台，提供媒体宣传、教育培训、机构内训、全国评选等服务

最新文章

人工智能技术在城市空间治理中的应用、赋能模式与路径研究丨城市数据派

【倒计时5天】如何建立人口流动空间交互网络并分析结构特征？丨城市数据派

【倒计时5天】计算机视觉在行人交通流分析中的应用丨城市数据派

【RGBD数据】基于视觉和语义的室内场景理解与实时建模丨城市数据派

如何通过人流量的模拟及预测，量化空间布局并优化设计方案？丨城市数据派

【出行活动数据实战】空间交互网络建模分析方法和典型案例有哪些？丨城市数据派

基于计算机视觉方法实现行人识别、行人跟踪和行人重识别丨城市数据派

基于视觉计算和感知模型，构建多元空间融合的图像质量评价新框架丨城市数据派

【ArcGIS Pro基础到进阶】新空间数据模型构建技术有哪些？丨城市数据派

【优秀基金成果】面向视频行人重识别的特征表达与度量学习方法研究丨城市数据派

【倒计时6天】空间数据处理与分析模型的新特性有哪些值得关注？丨城市数据派

【12月课程推荐】《计算机视觉在行人交通流分析中的应用》丨城市数据派

【12月课程推荐】《基于出行活动数据的城市空间交互分析》丨城市数据派

【12月课程推荐】《空间句法基础课》&《空间句法进阶课》丨城市数据派

【今晚开课】手把手带你入门Python+GIS：玩转大数据爬虫&挖掘&可视化丨城市数据派

如何将计算机视觉技术引入城市空间研究和人群行为分析中来？丨城市数据派

【手把手实操Python+GIS】规划领域常用的大数据类型和应用场景丨城市数据派

【POI和手机数据】一种面向社区生活圈的行为—设施时空匹配度评价思路丨城市数据派

【倒计时3天】手把手实操Python+GIS：站点覆盖+出行OD+出行量+POI+等时圈丨城市数据派

【开课倒计时4天】轻松掌握三维与动态可视化：跟着这个教程，你也可以成为高手！丨城市数据派

ArcGIS Pro 中的时空统计分析与建模，从机器学习、深度学习到动态规划丨城市数据派

新一代时空大数据技术在数据模型、数据处理、可视化等方面都有哪些升级？丨城市数据派

【倒计时7天】大数据分析中Python常用库有哪些典型应用场景？手把手教你实操丨城市数据派

清华大学建筑学院的城市设计作业是什么水平？来一起欣赏下丨城市数据派

【今晚开课，钜惠截止】手把手教你用Python自动化处理空间数据丨城市数据派

【明日开课】一区TOP论文中用到的自动化处理空间数据经验与技术分享丨城市数据派

逆袭之路：小王的大数据达人成长记丨城市数据派

【移动轨迹大数据】基于时空-语义融合的移动轨迹自动综合方法研究丨城市数据派

越用越上瘾!？大家都在偷偷用的自动化处理空间数据技巧都在这里丨城市数据派

【优秀项目成果推荐】大规模移动轨迹与空间网络的地学可视化方法研究丨城市数据派

【倒计时6天】如何批量自动化处理数据并结合GIS可视化？丨城市数据派

轨道、公交、人群出行、城市活力等典型项目中的大数据应用思路是怎样的？丨城市数据派

基于深度学习框架，行为大数据模式识别理论及方法可做哪些创新研究？丨城市数据派

快来自查！这5项大数据核心技能，你掌握了哪些？丨城市数据派

【2024最后一期】新一代ArcGlS平台时空大数据分析综合实践（基础班）丨城市数据派

【2024最后一期】计算城市科学中的GIS技术体系高级课程（高阶班）丨城市数据派

图像数据和人工智能技术如何改变城市研究者对城市进行感知和量化的方法？丨城市数据派

我怎么没有早点知道！Python自动化处理空间数据能如此高效丨城市数据派

拥堵是如何形成的？利用手机信令数据与交通态势数据，还原出行时空轨迹丨城市数据派

更高效的数据处理方法！矢量数据和栅格数据的自动化处理流程分享丨城市数据派

【11月热招课程推荐】利用Python自动化处理空间数据丨城市数据派

【城市模型竞赛大揭秘】这些获奖作品究竟有何魔力？全部获奖成果分享给你！丨城市数据派

基于大规模个体移动定位数据，探究CFEP如何帮助揭示人类移动网络的演化？丨城市数据派

【报名倒计时3天】一起来创建一款城市热点提取工具箱！丨城市数据派

如何评价15分钟便民生活区的建设情况？如何分析一处的生活便利程度?丨城市数据派

【报名倒计时5天】手把手教你实操：基于POI的街道功能计算丨城市数据派

【人口普查与空间大数据】大城市人口老龄化的时空演化特征与规划响应丨城市数据派

真香！用上TA，我也可以批量化处理GIS数据、自由操纵GIS数据啦！丨城市数据派

实际项目中能用上的、依托大数据和深度学习算法的城市计算前沿方法有哪些？丨城市数据派

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉