贾勇刚, 闫青云, 赵玺
引用本文: 贾勇刚, 闫青云, 赵玺. 质心投票与相关性驱动的单幅图像模型配准[J/OL]. 计算机辅助设计与图形学学报: 1-14[2024-10-31]. https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024-00384
Citation: Jia Yonggang, Yan Qingyun, Zhao Xi. Centroid Voting and Correlation-Driven Model Registration for Single Image[J/OL]. Journal of Computer-Aided Design & Computer Graphics: 1-14[2024-10-31]. https://www.jcad.cn/article/doi/10.3724/SP.J.1089.2024-00384
近年来, 随着虚拟现实技术的不断发展, 单幅图像的模型配准已经成为计算机图形学中重要的研究课题, 其在虚拟现实、自动驾驶以及机器人等领域都有广泛的应用. 单幅图像的模型配准任务是预测输入图像中各物体的类型和位姿, 其中, 位姿包括物体的质心向量、缩放向量和旋转矩阵这些三维信息. 当前, 单幅图像的模型配准方法大致可以分为2类: 一类是基于图像特征的模型配准方法, 另一类是基于深度估计的模型配准方法.
基于图像特征的模型配准方法利用二维图像特征预测图像中物体的三维信息, 由于基于图像特征的方法缺乏对输入图像中物体的三维感知能力, 因此影响了单幅图像模型配准任务的准确率; 基于深度估计的模型配准方法的代表性工作ROCA方法, 也是当前单幅图像模型配准任务的最佳方法, 但ROCA方法并未充分考虑三维点云的数据特点, 物体的全局特征仍然是从图像特征中提取的, 欠缺对图像中物体的三维感知能力.
在ROCA方法的基础上, 针对其存在的问题, 本文充分考虑点云数据具有分布不均、无序以及可能距离其质心较远的特点, 提出一种基于质心投票的模型配准方法, 充分挖掘了物体点云具有的空间信息; 为了进一步提升对物体的三维感知能力, 重新设计一个物体特征提取网络, 直接从物体点云中提取特征, 提取到了包含更多空间信息的物体全局特征; 为了充分挖掘物体点云与归一化点云间的相关性, 设计一个相关性权重预测网络, 使用共享权重的MLP网络提取并对比物体点云与归一化点云间匹配点的特征, 并提出一种关键点自监督损失函数, 通过对比物体点云与归一化点云间匹配点的特征约束相关性权重预测网络, 提高了相关性权重预测网络的可靠性.
相关工作
本文工作主要涉及场景生成和场景评估. 前者需要通过场景质量的量化评价生成三维场景; 后者虽然有着明确的评估标准, 但是尚未建立包含功能、美学和人因工程学在内的完善评估体系.
○ 基于深度学习的实例分割
实例分割算法指对输入图像进行像素级别的分割, 即识别出图像中的物体并且分割出属于各物体的像素. 根据算法的处理流程, 实例分割算法可以分为两阶段实例分割算法和单阶段实例分割算法. 两阶段实例分割算法中, 首先对图像进行目标检测, 生成各物体的边界框; 然后在各物体的边界框内生成掩码, 达到像素级别上的分割. 单阶段实例分割算法是端到端的生成物体掩码的算法, 即不存在先生成物体边界框的环节, 这样的特性也使得其不强依赖于物体边界框的生成准确性, 算法拥有更大自由度的生成范围.
单目深度估计算法在虚拟现实、自动驾驶等领域有广泛的应用. 基于深度学习的单目深度估计算法有诸多代表性的工作, 根据其依赖的底层网络结构的不同, 大致可以分为基于卷积的单目深度估计算法和基于注意力机制的单目深度估计算法2大类. 基于卷积的单目深度估计算法在提取局部特征方面更加有效且所需的计算资源较少; 基于注意力机制的单目深度估计算法在增大感受野方面更加有效且需要的计算资源较多, 但是深度估计的精度较高.
三维点云包含丰富的三维信息, 但由于三维点云数据是不规则的, 因此为直接针对点云数据结构进行特征提取带来了一定的困难.
本文方法
图1 本文方法整体框架
质心投票网络由采样分组、局部投票和质心回归3个子网络构成, 其框架如图3所示.
○ 采样分组网络
物体点云特征的质量在很大程度上决定了质心预测的准确性. 为了更好地提取点云特征, 本文充分利用输入的物体点云特点, 即无序性和非均匀分布性, 设计了一个采样分组网络, 其框架如图4所示.
○ 局部投票网络
虽然由深度估计得来的物体前景点云距离物体质心较远, 但前景点云的各个局部点云对于指向物体质心有一定帮助. 为了充分考虑各个局部点云对质心的指向作用, 本文设计了局部投票网络, 其框架如图5所示.
○ 质心回归网络
质心回归网络的任务是利用局部投票网络得到的投票点和投票特征预测出物体的质心, 其框架如图6所示.
实验与结果分析
图8 本文方法实验结果
将本文方法与ROCA方法进行对比, 部分结果如图9所示. 实验结果表明, 本文提出的物体特征提取网络和相关性权重预测网络, 有效地提高了物体缩放向量和旋转矩阵的预测精度.
图9 2种方法结果对比
进一步, 将本文方法与Total3D, MDR和ROCA方法进行量化实验. 在ScanNet25k测试集上, 4种方法在传统质心准确率和自适应质心准确率指标下, 模型配准任务准确率的量化结果如表1和表2所示. 可以看出, 在传统质心准确率指标下, 除屏幕类物体外, 本文方法在其他各类物体上的模型配准任务准确率都优于其他方法; 在自适应质心准确率指标上, 本文方法在各类物体上模型配准任务准确率都优于其他方法.
结 语
贾勇刚: 硕士研究生, 主要研究方向为三维计算机视觉.
闫青云: 硕士研究生, CCF会员, 主要研究方向为三维计算机视觉.
赵 玺: 博士, 副教授, 硕士生导师, CCF会员, 论文通信作者, 主要研究方向为计算机图形学、计算机视觉.
— END —
还没关注?点击下方“卡片”关注,获取第一时间资讯
精选报告 | 基于紧凑型线性混合半侧蒙皮权重的神经辐射场人体表示方法
开源代码 | 基于EfficientNetV2的PCB缺陷检测算法
本公众号发布的所有原创文章欢迎转发和转载,但必须注明作者和文章出处为《计算机辅助设计与图形学学报》公众号;任何媒体、网站或个人不得对本公众号原创图文进行内容修改或摘编。除本公众号原创的图文之外,本公众号发布的图文旨在学术交流,版权归原作者所有,本公众号将不承担任何法律责任;非原创内容均已对来源作出标注,如有侵权,请留言与本公众号联系,我们将及时处理。《计算机辅助设计与图形学学报》拥有最终解释权。