精选报告 | 质心投票与相关性驱动的单幅图像模型配准

学术科技 2024-10-31 18:32 北京

点击文末 “阅读原文” 下载全文

贾勇刚, 闫青云, 赵玺

西安交通大学电子与信息学部计算机科学与技术学院

引用本文: 贾勇刚, 闫青云, 赵玺. 质心投票与相关性驱动的单幅图像模型配准[J/OL]. 计算机辅助设计与图形学学报: 1-14[2024-10-31]. https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024-00384

Citation: Jia Yonggang, Yan Qingyun, Zhao Xi. Centroid Voting and Correlation-Driven Model Registration for Single Image[J/OL]. Journal of Computer-Aided Design & Computer Graphics: 1-14[2024-10-31]. https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024-00384

点击播放精选报告视频

感谢西安交通大学闫青云录制并提供论文讲解视频！本文为CAD/CG 2024大会推荐论文，同时也是CAD/CG与GDC大会精选报告论文。通过严格评审后，已被《计算机辅助设计与图形学学报》录用并在期刊官网最新录用版块上线。

近年来, 随着虚拟现实技术的不断发展, 单幅图像的模型配准已经成为计算机图形学中重要的研究课题, 其在虚拟现实、自动驾驶以及机器人等领域都有广泛的应用. 单幅图像的模型配准任务是预测输入图像中各物体的类型和位姿, 其中, 位姿包括物体的质心向量、缩放向量和旋转矩阵这些三维信息. 当前, 单幅图像的模型配准方法大致可以分为2类: 一类是基于图像特征的模型配准方法, 另一类是基于深度估计的模型配准方法.

基于图像特征的模型配准方法利用二维图像特征预测图像中物体的三维信息, 由于基于图像特征的方法缺乏对输入图像中物体的三维感知能力, 因此影响了单幅图像模型配准任务的准确率; 基于深度估计的模型配准方法的代表性工作ROCA方法, 也是当前单幅图像模型配准任务的最佳方法, 但ROCA方法并未充分考虑三维点云的数据特点, 物体的全局特征仍然是从图像特征中提取的, 欠缺对图像中物体的三维感知能力.

在ROCA方法的基础上, 针对其存在的问题, 本文充分考虑点云数据具有分布不均、无序以及可能距离其质心较远的特点, 提出一种基于质心投票的模型配准方法, 充分挖掘了物体点云具有的空间信息; 为了进一步提升对物体的三维感知能力, 重新设计一个物体特征提取网络, 直接从物体点云中提取特征, 提取到了包含更多空间信息的物体全局特征; 为了充分挖掘物体点云与归一化点云间的相关性, 设计一个相关性权重预测网络, 使用共享权重的MLP网络提取并对比物体点云与归一化点云间匹配点的特征, 并提出一种关键点自监督损失函数, 通过对比物体点云与归一化点云间匹配点的特征约束相关性权重预测网络, 提高了相关性权重预测网络的可靠性.

相关工作

本文工作主要涉及场景生成和场景评估. 前者需要通过场景质量的量化评价生成三维场景; 后者虽然有着明确的评估标准, 但是尚未建立包含功能、美学和人因工程学在内的完善评估体系.

○ 基于深度学习的实例分割

实例分割算法指对输入图像进行像素级别的分割, 即识别出图像中的物体并且分割出属于各物体的像素. 根据算法的处理流程, 实例分割算法可以分为两阶段实例分割算法和单阶段实例分割算法. 两阶段实例分割算法中, 首先对图像进行目标检测, 生成各物体的边界框; 然后在各物体的边界框内生成掩码, 达到像素级别上的分割. 单阶段实例分割算法是端到端的生成物体掩码的算法, 即不存在先生成物体边界框的环节, 这样的特性也使得其不强依赖于物体边界框的生成准确性, 算法拥有更大自由度的生成范围.

○ 基于深度学习的单目深度估计

单目深度估计算法在虚拟现实、自动驾驶等领域有广泛的应用. 基于深度学习的单目深度估计算法有诸多代表性的工作, 根据其依赖的底层网络结构的不同, 大致可以分为基于卷积的单目深度估计算法和基于注意力机制的单目深度估计算法2大类. 基于卷积的单目深度估计算法在提取局部特征方面更加有效且所需的计算资源较少; 基于注意力机制的单目深度估计算法在增大感受野方面更加有效且需要的计算资源较多, 但是深度估计的精度较高.

○ 三维点云特征提取

三维点云包含丰富的三维信息, 但由于三维点云数据是不规则的, 因此为直接针对点云数据结构进行特征提取带来了一定的困难.

本文方法

本文提出一种基于质心投票和相关性的单幅图像检索与配准方法, 由点云生成、模型配准和模型检索3个阶段组成, 其整体框架如图1所示.

图1 本文方法整体框架

1. 物体特征提取网络

物体特征对于预测物体位姿而言至关重要, 其直接或间接地参与了物体缩放向量和旋转向量的预测. 为了更好地提取物体特征, 设计一个物体特征提取网络, 分别对物体的深度特征矩阵和物体点云提取全局特征; 然后将提取到的物体深度全局特征和物体的点云全局特征进行拼接, 得到物体的全局特征. 物体特征提取网络的框架如图2所示.

图2 物体特征提取网络框架

2. 质心投票网络

质心投票网络由采样分组、局部投票和质心回归3个子网络构成, 其框架如图3所示.

图3 质心投票网络框架

○ 采样分组网络

物体点云特征的质量在很大程度上决定了质心预测的准确性. 为了更好地提取点云特征, 本文充分利用输入的物体点云特点, 即无序性和非均匀分布性, 设计了一个采样分组网络, 其框架如图4所示.

图4 采样分组网络框架

○ 局部投票网络

虽然由深度估计得来的物体前景点云距离物体质心较远, 但前景点云的各个局部点云对于指向物体质心有一定帮助. 为了充分考虑各个局部点云对质心的指向作用, 本文设计了局部投票网络, 其框架如图5所示.

图5 局部投票网络框架

○ 质心回归网络

质心回归网络的任务是利用局部投票网络得到的投票点和投票特征预测出物体的质心, 其框架如图6所示.

图6 质心回归网络框架

3. 相关性权重预测网络

归一化点云和物体点云之间的相关性会影响物体旋转向量的预测精度, 有效地量化归一化点云和物体点云之间的相关性, 可以提升物体旋转向量预测准确率. 因此, 本文设计了一个相关性权重预测网络来量化归一化点云和物体点云之间的相关性, 其框架如图7所示.

图7 相关性权重预测网络框架

实验与结果分析

1. 对比实验

图8所示为本文方法的部分实验结果. 可以看出, 本文方法得到了质量较好的模型检索与配准结果. 实验结果表明, 在输入图像中物体不完整且存在互相遮挡的情况下, 本文方法能够实现较为精准的配准结果.

图8 本文方法实验结果

将本文方法与ROCA方法进行对比, 部分结果如图9所示. 实验结果表明, 本文提出的物体特征提取网络和相关性权重预测网络, 有效地提高了物体缩放向量和旋转矩阵的预测精度.

图9 2种方法结果对比

进一步, 将本文方法与Total3D, MDR和ROCA方法进行量化实验. 在ScanNet25k测试集上, 4种方法在传统质心准确率和自适应质心准确率指标下, 模型配准任务准确率的量化结果如表1和表2所示. 可以看出, 在传统质心准确率指标下, 除屏幕类物体外, 本文方法在其他各类物体上的模型配准任务准确率都优于其他方法; 在自适应质心准确率指标上, 本文方法在各类物体上模型配准任务准确率都优于其他方法.

2. 消融实验

对质心投票网络、相关性权重预测网络、物体特征提取网络和关键点自监督损失函数这4部分进行消融实验, 评估每部分对整体方法的贡献. 为了便于后续描述, 将仅含有质心投票网络的方法称作方法1, 将同时消去物体特征提取网络和关键点自监督损失函数这2部分的方法称作方法2, 将只消去关键点自监督损失函数的方法称作方法3.

在ScanNet25k测试集上, ROCA方法、方法1、方法2、方法3和本文方法在传统质心准确率和自适应质心准确率指标下, 模型配准任务准确率的量化对比结果如表3, 表4所示. 实验结果证明, 本文提出的质心投票网络、相关性权重预测网络、物体特征提取网络和关键点自监督损失函数, 对整体方法在模型配准任务上有一定的贡献.

3. 讨论

当前, 本文方法的一些局限性和不足, 以及未来的研究方向如下:

(1) 特征提取、实例分割和深度估计任务都可以采用更先进的网络模型, 从而提升整体性能和鲁棒性.

(2) 未对预测结果中模型相互穿插的情况进行限制, 导致预测结果中存在模型相互穿插的问题, 为此, 可以设计一个模型穿插损失函数对模型相互穿插的情况进行惩罚, 减少模型穿插的发生. 另外, 缺乏对物体之间关系的考虑, 导致有可能生成结果中物体摆放不合理(如物体重叠、不符合物理规律的摆放等). 未来将引入物理约束来确保生成结果的合理性, 如设计一个重力角度损失函数, 通过该损失函数约束各模型的重力角度, 惩罚重力角度不一致的情况, 提高生成结果的合理性.

(3) 只针对室内场景中的CAD模型检索配准, 未考虑对非CAD模型(如一般衣服、雕塑等更复杂曲面物体)的检索配准. 通常, CAD模型具有明确的几何结构和规则形状, 而非CAD模型可能具有复杂、不规则的几何形态, 这对配准算法提出了更高的要求. 未来需要增加该类模型的训练数据并改进特征提取方法, 以适应更复杂模型的配准任务.

结语

本文提出一种基于质心投票和相关性的模型配准方法, 使用基于质心投票的模型配准充分提取物体点云空间信息, 增强了网络对图像的三维感知能力; 构造了相关性权重预测网络和关键点自监督损失函数, 挖掘物体点云和归一化点云的相关性, 提高了单幅图像模型配准任务的准确率.

贾勇刚: 硕士研究生, 主要研究方向为三维计算机视觉.

闫青云: 硕士研究生, CCF会员, 主要研究方向为三维计算机视觉.

赵玺: 博士, 副教授, 硕士生导师, CCF会员, 论文通信作者, 主要研究方向为计算机图形学、计算机视觉.

编辑：李姝昊

审核：赵敏

— END —

还没关注？点击下方“卡片”关注，获取第一时间资讯

精选报告

精选报告 | 面向逆渲染的室内场景光源建模

精选报告 | 室内数字三维场景评估方法

精选报告 | 基于紧凑型线性混合半侧蒙皮权重的神经辐射场人体表示方法

编辑推荐

基于VSLAM的室内场景重建与虚实遮挡的边缘优化方法

融合局部和长距离信息的图像特征点提取

红外-点云的高精度注册及其微服务数字孪生系统应用

基于5G多接入边缘计算的云化PLC系统架构设计与应用

开源代码

开源代码 | 基于循环双向Transformer的伪CT影像生成方法

开源代码 | 语义扩散对齐的多尺度感知医学图像分割方法

开源代码 | 基于EfficientNetV2的PCB缺陷检测算法

数据集

数据集 | 自然场景盲文字符识别数据集

合辑荐读

合辑荐读 | 计算机技术与传统文化论文合辑

合辑荐读 | 几何建模与优化最新论文合辑

合辑荐读 | 目标检测、目标跟踪与重识别最新论文合辑

合辑荐读 | 医学图像处理最新论文合辑

合辑荐读 | 感知与交互最新论文合辑

合辑荐读 | VR/AR/MR最新论文合辑

合辑荐读 | 三维图形计算最新论文合辑

合辑荐读 | 可视化与可视分析最新论文合辑

合辑荐读 | 《计算机辅助设计与图形学学报》最新综述论文

声明

本公众号发布的所有原创文章欢迎转发和转载，但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号；任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外，本公众号发布的图文旨在学术交流，版权归原作者所有，本公众号将不承担任何法律责任；非原创内容均已对来源作出标注，如有侵权，请留言与本公众号联系，我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。

http://mp.weixin.qq.com/s?__biz=Mzk0NTQyNjMyNw==&mid=2247557353&idx=1&sn=fe9496485493a778cfb6231c3827b9cb

计算机辅助设计与图形学学报

《计算机辅助设计与图形学学报》官方平台。本刊创刊于1989年，EI、Scopus、北大核心、CSCD、CSTPCD、CNKI等国内外数据库收录，CCF推荐中文科技期刊A类、计算领域高质量科技期刊T1类。期刊官网：www.jcad.cn。

精选报告 | KLMVis: 基于知识图谱的检索增强语言模型可视分析系统

解码《黑神话：悟空》背后的计算机技术 | CCCF精选

精选报告 | 人机协同决策的异质多智能体路径规划

修订后的《国家自然科学基金条例》公布：加大支持青年人才、扩大依托单位范围、严惩违背科研诚信等行为

科研诚信 | 国家自然科学基金委员会《科研诚信规范手册》解读：明确“应该做”和“不能做”

月度排行 | 最新录用论文10月下载TOP5

精选报告 | 基于再次事件估计的光学厚介质高性能渲染方法

JCST | Computer Graphics & Multimedia领域论文

精选报告 | 质心投票与相关性驱动的单幅图像模型配准

开源成果 | 开源代码/数据集成果合辑

作者指南 | 查询期刊EI收录情况 & 下载论文收录证明

综述推荐 | 大规模三维场景光线追踪渲染方法综述

2024年第8期论文速览

投稿避坑 |《学术论文期刊投稿诚信风险防范指南》发布，让投稿不再有“坑”

月度排行 | 最新录用论文9月下载TOP5

综述推荐 | 神经辐射场的研究现状与展望

梁友栋教授和刘利刚教授分获Chinagraph贡献奖和杰出奖

精选报告 | 面向逆渲染的室内场景光源建模

季度排行 | 网络首发论文第3季度下载TOP10

学术规范 |《学术出版中AIGC使用边界指南2.0》

精选报告 | 室内数字三维场景评估方法

2024年第7期论文速览

会议资讯 | CNCC2024简明日程最新出炉，报名从速

精选报告 | 基于紧凑型线性混合半侧蒙皮权重的神经辐射场人体表示方法

综述推荐 | 数据新闻可视化研究: 理论与实践

2024年全国科普日 | 提升全民科学素质协力建设科技强国

中国科学院发布八条诚信提醒

综述推荐 | 水下图像增强与复原技术进展与展望

开源代码 | 基于循环双向Transformer的伪CT影像生成方法

月度排行 | 最新录用论文8月下载TOP5

2024年第6期论文速览

CCF CAD&CG专委会“启明星”系列论坛

月度排行 | 最新录用论文7月下载TOP5

2024年第5期论文速览

会议资讯 | Chinagraph 2024注册开启早鸟截至9月15日

数据集 | 自然场景盲文字符识别数据集

《计算机辅助设计与图形学学报》虚拟专辑电子版集合

《计算机辅助设计与图形学学报》期刊栏目介绍

开源代码 | 语义扩散对齐的多尺度感知医学图像分割方法

《计算机辅助设计与图形学学报》期刊栏目介绍

【转载】亮点论文（中科院计算所陈熙霖、王瑞平团队）| 开放世界物体识别与检测系统：现状、挑战与展望

综述推荐 | 开放环境下的跨域物体检测综述

月度排行 | 最新录用论文6月下载TOP5

学术资讯 | 2024大模型十大趋势：走进“机器外脑”时代

季度排行 | 网络首发论文第2季度下载TOP10

开源代码 | 基于EfficientNetV2的PCB缺陷检测算法

《计算机辅助设计与图形学学报》科学数据银行数据社区，提供论文关联数据服务

综述推荐 | 基于叙事结构抽象的可视分析方法综述

2024年第4期论文速览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉