TPAMI 2024 | 深度学习方法在标定光度立体渲染及其它领域的应用

文摘   2024-10-25 19:00   辽宁  

点击下方“计算机书童”卡片,每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Deep Learning Methods for Calibrated Photometric Stereo and Beyond

题目:深度学习方法在标定光度立体渲染及其它领域的应用

作者:Yakun Ju; Kin-Man Lam; Wuyuan Xie; Huiyu Zhou; Junyu Dong; Boxin Shi
源码:https://github.com/Kelvin-Ju/Survey-DLCPS


摘要

光度立体法通过多个不同阴影提示的图像来恢复物体的表面法线,即模拟每个像素点处表面方向与强度之间的关系。光度立体法在每个像素点的分辨率和精细重建细节方面具有优势。然而,由于非朗伯表面反射引起的非线性关系,这是一个复杂的问题。最近,各种基于深度学习方法在非朗伯表面光度立体法的背景下显示出了强大的能力。本文全面回顾了利用正交摄像机和方向光源的现有基于深度学习的校准光度立体法方法。我们首先从不同角度分析这些方法,包括输入处理、监督和网络架构。我们总结了深度学习光度立体模型在最广泛使用的基准数据集上的性能。这表明了基于深度学习的光度立体方法的先进性能。最后,我们根据现有模型的局限性提出建议,并预测未来的研究趋势。

关键字

  • 深度学习

  • 非朗伯

  • 光度立体法

  • 表面法线

I. 引言

从二维(2D)场景中获取三维(3D)几何形状是计算机视觉中的一个基本问题。它旨在建立计算模型,使计算机能够感知外部的3D世界。与使用不同视点场景计算3D点的几何方法(如多视图立体和双目)不同,光度立体法通过在固定视点下不同照明条件下观察到的不同阴影提示来感知物体的形状。与通常重建粗糙形状的几何方法相比,光度方法可以获得更详细的局部重建。因此,光度立体法在许多高精度表面重建任务中扮演着主流角色,如文物重建[2]、海底测绘[3]、月球表面重建[4]和工业缺陷检测[5]等。如图1所示,光度立体法方法从不同照明下的多个图像中获得详细的形状重建。在这项调查中,我们以DiLiGenT基准[6]中的“阅读”对象作为视觉示例,该对象具有空间变化和非朗伯材料,具有强烈的镜面反射和阴影。

经典的光度立体法[1]假设目标物体表面只存在朗伯(漫反射)反射。在朗伯假设下,表面法线可以通过最小二乘法轻松求解,因为反射强度与法线和入射光之间的角度成正比,如下所示:
然而,现实世界中的物体几乎没有朗伯反射属性。表面的非朗伯属性(如图1中的橙色框所示)影响了(1)中的比例关系。从数学上讲,我们通过双向反射分布函数(BRDF)来表示非朗伯属性,这取决于物体的材料。根据之前的分类[6]、[7]、[8],许多工作通过建模BRDF[9]、[10]、[11]、拒绝异常区域[12]、[13]、[14]或设置示例[15]、[16]来解决非朗伯光度立体法。然而,为光度立体法设计适当的反射模型使用一般的参数化BRDF是具有挑战性的,因为这些非学习模型往往只对特定材料准确,并且通常涉及不稳定的优化过程。在这种情况下,早期基于浅层人工神经网络的非参数尝试被引入,以建立复杂反射观测和表面法线之间的映射[17]、[18]、[19]。然而,这些模型受到有限材料的限制,缺乏实际应用,或者需要与目标物体具有相同材料的参考物体进行预训练。
2017年,DPSN[20]首次尝试在光度立体法的背景下使用现代深度神经网络架构。它建立了基于学习的光度立体框架,该框架具有更灵活的从反射观测到表面法线的映射,突破了早期方法中每种材料都需要单独训练的限制。DPSN[20]在非朗伯表面的表现优于传统的手工制作模型,这些模型明确估计BRDF参数并分离表面法线。然而,这种方法要求在训练和测试期间具有固定数量和顺序的照明方向,这限制了其泛化能力。
为了增强泛化能力,引入了各种基于深度学习的方法。本文特别关注利用正交摄像机和方向光源的基于深度学习的校准光度立体法方法。我们从不同角度对这些方法进行分类和总结,包括输入处理、监督和网络架构,概述框架如图2所示。

在本文中,我们首先根据它们如何处理输入图像,将这些基于深度学习的校准光度立体法方法分类为逐像素方法(即通过观察图操作[21]记录每个像素的强度)或逐像素方法(即使用聚合模型[22]融合整个补丁)。与最近的总结[23]仅列出了五个校准学习基础光度立体模型不同,我们全面总结和讨论了各种方法的优缺点以及它们如何在这两个类别中发展。此外,我们引入了一个新的分类,称为混合方法,它利用像素和补丁特征来增强性能。
其次,基于学习模型的复杂性和参数数量显著增加。许多先进的模块被集成到表面法线恢复任务中,如ResNet[24]、DenseNet[25]、HR-Net[26]、Transformer[27]等。同样,光度立体的合成训练数据集的选择变得更加多样化,即渲染MERL BRDF[28]或迪士尼的原则性BSDF[29]。本文还对先前基于深度学习的光度立体方法中使用的网络架构和数据集进行了全面的总结和讨论。
此外,我们从监督的角度分析文献,即方法如何优化网络(第V节)。大多数深度光度立体网络通过成对的光度立体图像(输入)和表面法线(真实值)进行训练,即监督学习。光度立体网络是否可以以自监督的方式进行优化?是否可以添加额外的信息以简化表面法线恢复的学习?在这方面,本文回顾了最近的尝试,以扩展和突破监督框架[30]、[31]、[32]、[33]并为未来发展提供建议。
基于上述分类和总结,我们随后在广泛使用的基准[6]上评估了30多个深度学习模型在密集输入条件(表III)和稀疏输入条件(表IV)下的光度立体性能。我们发现与传统的非学习方法相比,基于深度学习的光度立体模型在估计表面法线方面更为优越。最后,我们指出了光度立体领域的未来趋势。我们希望通过这项调查,帮助研究人员了解最先进的方法,并在这一不断增长的领域中定位自己的发展方向,同时突出未来研究的机会。本调查的项目可以在https://github.com/Kelvin-Ju/Survey-DLCPS找到。

II. 问题表述

考虑一个非朗伯表面上的像素,其法线为,被方向入射光照亮。当线性响应摄像机在视图方向下拍摄此表面时,图像中测量的像素强度可以近似表示如下:
其中表示BRDF,表示附加阴影,代表全局照明效应(例如,投射阴影和相互反射)和噪声。传统的光度立体法通过使用超过三个输入图像来逆向求解成像模型(2),计算一般物体的表面法线,但未知的BRDFs使模型难以拟合(如图1所示)。同样,基于深度学习的校准光度立体法旨在从个不同观测中学习一个神经网络模型,如下所示:
其中是通过训练数据集优化的深度神经网络。通常,聚合模型(Agg)由它们如何处理输入图像来确定,例如观察图、最大池化模型或混合方法,将在第III节中讨论。大多数现有的PS方法,即校准光度立体法,依赖于对每个图像的光线方向和强度的先验知识,而未校准的光度立体法可以在没有照明信息的情况下估计表面法线。请注意,当解决未校准的光度立体法时,模型变为。尽管未校准的光度立体法具有不需要预先校准照明条件的优势,但它确实面临额外的挑战,因为它需要从阴影提示中分离照明信息,使其成为更复杂的问题。本文主要关注基于深度学习的校准光度立体法,因为它提供了更通用的框架和特征提取模型,可以扩展到未校准和其他光度立体任务。第III节-B4中也可以找到对未校准条件的简要讨论,以获得更全面的概述。
在以下小节中,我们将从不同角度讨论这些基于深度学习的校准光度立体法方法。

III. 输入处理的分类

第一个深度学习方法DPSN[20]通过一个七层的全连接网络,使照明的顺序和输入图像的数量不变。因此,随后的方法专注于处理任意数量的输入图像和任意的光方向。事实上,这个问题相当于如何融合不同数量的特征在网络中。已知卷积神经网络(CNN)在训练和测试期间不能处理不同数量的输入。因此,在光度立体法中提出了两种方法,即逐像素处理输入图像或逐补丁处理。按照[23]中提出的概念,我们也称逐像素和逐补丁处理方法为逐像素方法(第III-A节)和逐补丁方法(第III-B节)。我们深入总结了这两种方法的发展,并参考了初始方法(即CNN-PS[21]的观测图和PS-FCN[22]的最大池化)的局限性。此外,我们提出了一个新的类别,混合方法(第III-C节),它融合了像素和补丁特征。如表I所示,我们还总结了图2中每个方向的代表性方法的算法和公式。

A. 逐像素方法

逐像素策略最初使用观测图在CNN-PS[21]中实现。观测图本质上是逐像素融合所有观测,捕获每个像素的图像强度变化。观测图也广泛用于最近的近场光度立体法[34]和多视图光度立体法[35]任务。图3说明了融合规则,该规则基于像素强度和正交投影光方向。具体来说,观测图[21]是通过将3D空间(半球)中的光方向投影到固定大小的观测图平面(沿轴z方向)来确定的。每个观测图可以表示单个像素位置的特征。观测图在光度立体法中有效的原因有三个。首先,其大小与输入图像的数量无关。其次,值与输入图像的顺序无关。第三,光方向和强度的信息嵌入在观测图中[21]。最近,Ikehata[33]进一步利用了观测图的物理可解释性,使观测图解析物理内在属性,形成自监督的逆渲染流水线。

1) 稀疏输入问题:

然而,初始方法[21]中的观测图也遇到了一些限制。首先,光方向由非结构化向量表示,而观测图是作为图像的网格数据。将光向量投影到2D坐标系时,投影方向无法精确对应于网格观测图。为了提高投影光方向的准确性,观测图的大小必须足够大,以近似表示非结构化的投影向量。不幸的是,输入图像(光方向)的数量与观测图的大小相比是稀疏的,这造成了提取特征的困难。实际上,稀疏观测图影响了网络性能。当输入少量图像(稀疏条件)时,CNN-PS的准确性显著下降,与逐像素方法相比。
在这方面,一些工作被提出来解决稀疏输入图像问题,如SPLINE-Net[36]和LMPS[37]。这两种方法采用了相反的策略来解决这个问题。SPLINE-Net[36]提出了一个照明插网网络,当输入稀疏时生成密集的照明观测图(如图4中的红色箭头所示)。为了优化照明插网网络和法线估计网络,SPLINE-Net进一步使用了对称损失和非对称损失,分别明确考虑一般BRDF属性和异常值排斥。另一方面,LMPS[37]通过只学习关键的照明条件来减少对图像数量的需求。该方法使用连接表选择对表面法线预测过程最相关的照明方向(如图4中的蓝色箭头所示)。此外,一种更彻底的方法[38]是用非结构化图网络替换结构化观测图,这将在第III-C节中介绍。

2) 全局信息问题:

另一方面,由于原始逐像素方法[21]独立操作,这意味着表面像素的估计法线完全依赖于该像素本身提取的特征,没有利用相邻像素的信息。因此,当计算特征图时,可能会丢失相邻像素的局部上下文信息。
当输入观测在光度提示上表现出偏差时,逐像素方法可能比考虑所有输入补丁中的所有像素的逐补丁方法表现出较低的鲁棒性。例如,如[21]中提到的,在DiLiGenT基准数据集[6]中的“熊”对象的前20个图像准确性较低:由于镜面反射,熊的胃部区域的强度值低于相邻区域,即使它们应该更高。当所有96个“熊”图像输入到逐像素方法CNN-PS[21]时,平均角误差从4.20(丢弃前20个图像)增加到8.30,增加了97.62%。相比之下,逐补丁方法表现出更好的鲁棒性,例如,PS-FCN[22]的错误从5.02增加到7.55,仅增加了50.40%。这个实验说明了相邻像素的鲁棒性。
为了解决这个限制,一些最近的工作将全局信息纳入基于观测图的逐像素方法,从而取得了优越的性能,如PX-Net[39]。PX-Net提出了一种基于观测图的方法,考虑全局照明效应,如自反射、表面不连续性和环境光,这使得全局信息被嵌入到逐像素生成过程中。此外,PX-Net在处理稀疏条件方面表现良好,与原始基于观测图的方法[21]形成对比。其他方法,如HT21[40]和GPS-Net[38],通过结合逐像素和逐补丁策略学习全局信息(图像内特征)。我们将在第III-C节中讨论这些方法。

B. 逐补丁方法

与逐像素方法不同,逐像素方法单独分析每个像素的观测,逐补丁方法将所有像素保持在一起。逐补丁方法的优势在于探索整个输入图像内的强度变化。原始的逐补丁方法通过PS-FCN[22]中的max-pooling层引入,该层在通道维度上操作,并融合来自任意数量输入的特征。在融合特征的每个位置,值是所有输入特征在该位置的最大值。因此,这种方法允许卷积网络使用来自任意数量输入的特征。max-pooling层受到其他计算机视觉任务中聚合多图像信息的启发[41]、[42]。与传统的可变输入方法如RNN[43]相比,采用的最大池化操作是顺序不可知的,这意味着它不敏感于输入图像提供的顺序。这个属性使其特别适合光度立体法。逐补丁最大池化操作提供了几个优势。首先,它可以处理任意数量的输入图像,而不受它们的顺序影响。其次,使用整个图像特征包括有价值的局部上下文信息,这增强了表面法线估计。第三,基于补丁的输入加速了与逐像素方法相比的训练过程。最后,逐补丁方法分别处理输入图像和照明方向(作为额外信息),使它们能够预测未知照明下的光度立体(未校准的光度立体)。

1) 空间变化BRDF问题:

然而,原始逐补丁方法PS-FCN[22]有一些局限性。首先,PS-FCN无法处理具有空间变化材料的表面。由于逐补丁方法利用卷积网络以基于补丁的方式处理输入,它们可能难以处理由具有空间变化材料的表面引起的陡峭颜色变化。它可以被视为在计算特征图时考虑邻域观测的负面影响。如图5所示,头部和领子区域具有空间变化的BRDF。原始逐像素方法PS-FCN[22]在处理具有空间变化BRDF的区域方面效果较差,其中胡须的颜色变化影响了表面法线图。而改进的方法,如PS-FCN (Norm.)[44]和NormAttentionPSN[45],显示出显著增强的重建结果。这个问题可能源于两个关键因素。首先,特征提取网络在解耦光度阴影提示和BRDF之间的变化时遇到困难。换句话说,特征提取网络可能难以区分由于表面结构变化和不同材料属性导致的像素值变化。其次,逐像素方法在计算特征图时固有地结合了局部上下文信息,其中每个估计的表面法线向量依赖于在计算特征图时的邻近像素。因此,表面法线估计可能受到空间变化BRDF的影响。

为了解决这个限制,Chen等人进一步提出了PS-FCN (Norm.)[44]。而不是创建一个具有空间变化材料的大型训练集,引入了一种观察归一化方法,它连接了所有观测并归一化它们,如下所示:
其中分别代表幅图像中的原始和归一化像素强度。在朗伯反射假设下,可以消除反照率的影响。然而,PS-FCN (Norm.)[44]无法完美处理非朗伯表面。在具有镜面高光的区域,(4)中的分母变得更大,导致归一化后的观测被抑制[44]。如图6中的红色框所示,原始归一化方法[44]过度抑制了高光区域,而双门归一化方法[45]在这些区域提供了更合理的阴影提示。尽管最大池化可以自然忽略非激活特征,但被抑制的观测不等于被抑制的特征,即观测的变化可能导致更大的特征值。因此,Ju等人[45] 提出了双门观察归一化,以更好地处理具有空间变化材料的非朗伯表面。在该方法中,两个门分别设置在所有像素的最低10%(P10)和最高10%(P90)灰度值上,并将它们放在(4)的分母上,如下所示:
其中集合由两个门控制,使得如果,则,对于。可以看出,在图6中的红色框内,非朗伯效应被移除了。然而,这种方法必须与原始图像连接,因为在分母中丢弃一些灰度值可以被视为非线性过程,这可能会影响光度立体的阴影提示[45]。

2) 模糊细节问题:

原始逐补丁方法的第二个限制是,它们可能会在复杂结构区域造成模糊重建。我们认为主要原因有三个。(1)卷积模型处理基于补丁的输入,这意味着所有法线点将相互影响,造成模糊,特别是在高频区域。(2)广泛使用的基于欧几里得的损失函数很难约束高频(即复杂结构)表示,因为存在“回归平均”问题[46],导致图像模糊和过度平滑。(3)以前的网络架构通过编码器-解码器架构将输入通过高低高低分辨率传递,导致预测细节丢失和模糊。
在这方面,提出了两种不同的策略来处理逐补丁方法中的模糊重建问题。第一种方法是使用自适应损失来处理不同类型的表面。Attention-PSN[47]是第一个提出注意力加权损失以产生详细重建的方法,如下所示:
它为高频区域的保留梯度损失学习了更高的权重,以及余弦损失的较低权重。如图7所示,Attention-PSN[47]从输入图像中学习了注意力图,其像素值成为了注意力加权损失的权重。然而,物体的表面材料可能在平坦或平滑区域内快速变化,这影响了区域内梯度损失的大权重,并稀释了对表面法线的惩罚。因此,Ju等人进一步使用了上述双门观察归一化来消除空间变化表面材料的影响,即NormAttentionPSN[45]。

另一方面,第二种方法是通过新颖的网络架构保留高分辨率特征。CHR-PSN[48]提出了一个并行网络结构,用于维护表面法线的深层特征和高分辨率细节,灵感来自用于人体姿态估计的高分辨率网络(HR-Net)[26]。高分辨率特征始终可以在网络中保留,避免特征层从高到低分辨率的变化,避免模糊。

3) 融合效率问题:

第三是逐补丁方法的融合机制,即最大池化,丢弃了大量来自输入的特征,减少了信息的利用并影响了估计精度。因此,如何保留更多具有关键信息的特征是必不可少的。一些方法[38]、[49]通过连接操作融合了最大池化和平均池化。然而,添加平均池化的改进是有限的,因为平均特征可能会平滑出显著性并稀释有价值的特征。与添加平均信息不同,Manifold-PSN[50]引入了非线性降维[51]将特征从高维特征空间转换为低维流形。然而,流形方法截断了网络的反向传播。因此,作者不得不使用最大池化层来预训练网络的提取器,这是繁琐且效率低下的。
另一方面,一些方法采用了新颖的模型来增强其结构中的特征融合。MF-PSN[52]引入了一个多特征融合网络,利用不同特征层次的最大池化操作来捕获更丰富的信息。此外,CHR-PSN[48]、SR-PSN[53]和MS-PS[54]在不同尺度上扩展了最大池化,具有不同的接受场,而不是深度。
此外,HPS-Net[55]引入了一个双边提取模块,它在聚合之前生成正面和负面信息,以更好地保留有用的数据。尽管在特征融合方面取得了这些进展,但这些方法都没有完全解决信息丢失的基本挑战,即最大池化层只提取最大值,忽略了其余部分。
最近,Transformer架构[27]也被用来融合和通信不同输入图像之间的特征。PS-Transformer[56]首先使用多头注意力池化[57]来融合任意数量的输入特征。通过这种方式,集合中的元素数量从一个任意维度缩小到一个,通过提供可学习的查询Q,而不仅仅是保留最大值。多头注意力池化[57]可以被视为一种全局融合方法,它考虑了所有特征分布,而不仅仅是保留最大值。

4) 未校准条件:

大多数现有方法,即校准光度立体法,需要知道每个图像的光线方向和强度。然而,校准光线涉及复杂操作,依赖于专用仪器,这可能使其在实际应用中不切实际。相比之下,未校准的光度立体法可以在不需要照明信息的情况下估计表面法线。然而,它遇到了更多挑战,如广义基浮雕(GBR)歧义[58]和一般的非朗伯表面反射。
如第III-A节所讨论的,逐像素方法依赖于从3D空间投影到2D观测图的光方向,其中光方向是必不可少的。相反,逐补丁方法分别处理输入图像和光方向。因此,逐补丁策略首先自然应用于未校准条件。逐像素方法PS-FCN[22]首先解决了未校准问题,直接从输入图像学习表面法线,而不需要连接光方向,表示为UPS-FCN。然而,UPS-FCN的性能远非令人满意,因为阴影提示之间的复杂相互作用,包括未知的照明方向、表面法线和反射属性。为了更有效地解决未校准情况,大多数基于深度学习的未校准光度立体方法采用了两阶段策略。这包括首先估计光线方向,然后使用估计的光信息和输入图像来估计表面法线,基于逐补丁网络[59]、[60]、[61]、[62]、[63]、[64]。
SDPS-Net[59]首先提出了两阶段深度学习架构,以减少未校准光度立体法中的学习难度。它首先通过光校准网络估计光线方向和强度,然后应用基于逐补丁的法线估计网络以获得表面法线图。UPS-GCNet[60]使用物体形状和阴影信息作为指导来改进光线估计。类似地,ReDDLE-Net[62]结合了漫反射和镜面反射提示来增强光估计。Sarno等人[61]采用了可微分的神经架构搜索(NAS)来自动发现最高效的神经架构,用于光校准和法线估计网络。除了监督方法外,一些未校准方法还采用了自监督和多监督方式。例如,Kaya等人[65]使用了未校准的神经逆渲染方法来处理未知光线,Li等人[64]允许重新渲染的错误被反向传播到光源,并与法线一起进行细化。Yang等人[66]利用神经反射场实现了从未校准光度立体图像中的3D重建,具有恢复不可见部分的能力。Tiwari等人[63]通过联合训练网络进行图像重新照明,并使用多个损失函数来优化网络。

C. 混合方法

如上所述,逐像素和逐补丁方法都有各自的优势和局限性。逐像素方法主要关注分析像素级的图像强度变化。相比之下,逐补丁方法更注重提取与图像内照明变化相关的特征。结合这些策略的混合方法可能会从逐像素和逐补丁技术中受益。
实际上,第一种混合方法可以在基于学习的多光谱光度立体法[67]中找到,该方法最初估计了一个粗略的表面法线图,然后通过完全连接的网络使用逐像素方法进行细化。最近,MT-PS-CNN[68]提出了一个两阶段光度立体模型,以构建帧间(逐像素)和帧内(逐补丁)表示。类似地,Yang等人[69]引入了一种逐像素和逐补丁特征提取的串联方式,即PSMF-PSN。该网络使用3D卷积层来提取像素级特征。此外,PS-Transformer[56]引入了一个基于自注意力机制[27]的双分支特征提取器,探索了像素和图像级特征。Honzatko等人[40]在观测图的基础上构建,但使用2D和4D可分离卷积来纳入空间信息,以更好地捕获全局效应。不同地,GPS-Net[38]引入了一个结构感知图卷积网络[70],以建立每个像素的任意数量观测之间的连接,而不依赖于观测图。随后,卷积层被用来提取空间信息。这些混合方法可能从逐像素和逐补丁方法中受益。如图8所示,我们总结了HT21[40]和GPS-Net[38]的混合策略。

然而,所有现有的混合方法都遵循顺序和独立的方法来提取逐像素和逐补丁特征。未来的研究可能会集中在有效结合这两种特征类型上,并考虑学习过程作为一个整体方法,而不是将其视为两个独立的阶段。

IV. 网络架构

随着深度学习技术的发展,基于深度学习的光度立体网络已经使用了许多先进的模块。在本节中,我们将回顾这些模块,并比较它们在表面法线恢复任务中的优势和缺点。

A. 卷积网络

最初,DPSN[7]、[20]使用多层感知器(即全连接层)和dropout层来逐像素映射表面法线。然而,这种架构忽略了相邻信息,并且无法处理灵活数量的输入图像。因此,PS-FCN[22]和CNN-PS[21]被提出来处理任意数量的输入图像的不同策略(最大池化和观测图)。PS-FCN[22]应用全卷积平面网络来学习表面法线,而CNN-PS[21]使用变体的DenseNet架构[25]从观测图中估计表面法线。DenseNet架构[25]在随后的网络中被广泛使用,如LMPS[37]、SPLINE-Net[36]、MF-PSN[52]和PX-Net[39],由于其出色的特征提取能力。同样,ResNet[24]也被广泛用于基于深度学习的光度立体方法[38]、[47]、[50]、[71],它可以有效地避免深度网络中的梯度消失问题。然而,上述结构忽略了保持高分辨率特征,即连续通过高到低分辨率层,然后增加分辨率。这个操作适用于需要语义特征的高级任务。然而,它可能会导致信息丢失和模糊对于逐像素预测光度立体任务。因此,一些工作[45]、[48]引入了平行多尺度结构,受到HR-Net[26]在人体姿态估计任务中的改进的启发。HR-Net[26]采用平行网络结构提取三个尺度的特征,避免了特征图从低分辨率到高分辨率的变化,其中特征提取过程保持了深层特征和高分辨率特征,具有高语义和细节特征,用于表面法线预测。

B. 自注意力机制

Transformer带有自注意力模块[27]最初在自然语言处理领域提出。它也已在许多计算机视觉任务中广泛使用,其中自注意力被用于空间维度来捕获非局部特征依赖。最近,两项工作[56]、[72]引入了自注意力机制,以在光度立体的背景下聚合不同光线下的特征。SPS-Net[72]首先提出了自注意力光度立体网络,通过自注意力机制聚合光度信息。Ikehata等人[56]随后提出了PS-Transformer,它使用自注意力机制捕获稀疏光度立体中的复杂交互。PS-Transformer[56]设计了一个双分支来探索像素和图像级特征。因此,与SPS-Net[72]相比,更好地提取了图像内空间特征和图像间光度特征。最近,Ikehata介绍了两种光度立体方法:UniPS[73]和SDM-UniPS[74]。这些方法可以通过与他人互动,从单个图像中学习全局照明上下文,以处理自然光照条件,摒弃了特定的光照模型假设。在这些方法中,自注意力模型[27]作为主干,促进了非局部交互,并作为聚合方法,灵活地融合了任意特征。

1) 讨论:

Transformer模块在其他计算机视觉领域显示出显著的性能提升[75]、[76]。同样,光度立体任务也可以有效地利用自注意力模块。理论上,一个点的表面法线只取决于它自己,而不是它与远距离点的关系。然而,由于阴影和相互反射的存在,捕获长距离上下文对于准确提取特征至关重要。因此,基于Transformer的光度立体模型可以从通过自注意力模块获得的非局部信息和通过传统卷积层获得的嵌入式局部上下文信息中受益。此外,Transformer[56]、[73]、[74]的有效性可以促进特征的通信和聚合,通过使用多头注意力池化[57]灵活地进行。
然而,基于Transformer的光度立体方法面临一些局限性。Transformer模块具有更大的建模灵活性,可以专注于任何位置的信息。因此,与卷积网络相比,它需要更大规模的训练数据集。此外,众所周知,Transformer模型在处理大量元素时计算需求很大,特别是当处理大量元素[56]时。因此,未来的研究应该探索基于Transformer的光度立体方法的适应性,以更有效地解决密集问题。

V. 监督分类

作为一个映射任务,传统的基于学习的光度立体方法通过最小化预测表面法线和真实表面法线之间的距离来优化网络,通过成对的光度立体图像和它们的表面法线进行监督。然而,基于学习的3D任务面临挑战,因为获取和对齐大量地面真实数据很困难。为了解决这个问题,一些研究人员调查了光度立体中的自监督学习[30]、[65]、[77]。此外,许多工作通过引入额外的监督[32]、[33]、[78]或额外的信息来简化优化[31]、[71]、[79],进一步提高了性能。在图9中,我们总结了监督、自监督和多监督光度立体网络之间的差异。

A. 监督光度立体方法

许多深度光度立体网络已经被提出,与传统手工制作的光度立体方法相比,性能有所提高。这些基于学习的模型展示了深度神经网络在监督优化方面的潜力,即在训练阶段需要大量具有地面真实表面法线的数据。在这些监督模型中,一些方法[7]、[20]、[21]、[37]使用了L2损失(即均方误差损失),如下所示:
而更多的方法应用了余弦相似性损失,如下所示:
其中表示点积操作。在这种情况下,如果预测的与真实的相似,那么将接近1,而(8)将接近0。直观上,余弦相似性损失更适合表面法线估计,因为它直接测量了两个向量之间的方向差异。然而,以前的工作没有证据表明,相同的网络架构和设置下,L2损失会降低估计表面法线的准确性。

1) 额外信息:

最近,一些监督光度立体网络通过引入额外的信息来简化优化过程,从而提高了性能[31]、[71]、[79]。
额外的信息可以被视为用于通过权重参数化简化深度网络优化的先验知识。与以前仅从观测到的阴影线索中派生法线空间的深度学习方法不同,这些方法利用了额外的信息和观测来学习表面法线。因此,这些方法有能力减少学习假设空间,从而更容易提取特征,更快地收敛,并提高学习精度。
Wang等人[31]提出了一个非朗伯光度立体网络,该网络具有额外的同位光图像。该模型利用了各向同性反射的单调性和补充同位光的单变量属性,以及输入的光度立体图像,以便于从反射函数中解耦表面法线。Ju等人[71]结合了基于朗伯假设[1]的初始法线先验来提高物体表面法线预测的准确性。这种方法依赖于基于朗伯假设的先验表面法线来重新参数化网络权重,使映射对齐到相同的法线空间,并增加对先验法线中误差的关注。同样,Ju等人[79]提出了一个额外的反射引导光度立体网络,该网络采用了双分支提取器来结合来自先前反射和光度立体图像的信息。此外,包含先前反射有助于消除具有空间变化反射的表面对光度立体方法的影响。这些方法可以通过引入额外的信息来简化优化过程,从而提高性能。
总的来说,监督光度立体方法可以实现优越的性能,但这些方法由于获取准确的地面真实数据集的困难而受到限制,并且由于渲染技术,真实照片图像和合成图像之间存在差距。

B. 自监督光度立体方法

如上所述,深度学习技术极大地推进了光度立体任务。现有的基于深度学习的方法通常以监督训练的方式解决问题。这些方法依赖于大量带有地面真实表面法线的训练数据。然而,测量真实物体的表面法线非常困难和昂贵,因为它需要高精度的3D扫描仪来重建地面真实形状,并且需要大量的人力来对齐表面法线图和多个图像之间的观点(像素对齐)。到目前为止,只有三个真实场景数据集提出了[6]、[80]、[81]。Gourd & Apple数据集[83]包含三个对象,即“Apple”,“Gourd1”和“Gourd2”,分别有112、102和98幅图像。Light Stage Data Gallery[84]由六个对象组成,每个对象提供了253幅图像。然而,这些数据集只提供了校准的光线方向,而没有地面真实法线图。因此,只能在这些真实数据集上定性比较方法。
为了有效地评估所提出的光度立体方法的鲁棒性和性能,更好的选择是在真实光度立体图像上评估这些方法,而不是在合成图像上。Shi等人[6]首次建立了一个真实的光度立体数据集,该数据集具有地面真实法线图,即DiLiGenT,这是光度立体领域最广泛使用的基准。该数据集包括十个具有不同复杂性的对象,从简单的球体到复杂和凹面几何形状,以及各种材料,包括大多数漫反射和具有空间变化属性的强烈非朗伯表面。作者在不同的照明方向下为每个对象拍摄了96幅图像。为了获得地面真实情况,作者使用结构光扫描仪Rexcan CS,与转盘同步,获取3D点云,可以计算表面法线。然后,在Meshlab[97]中执行形状到图像的对齐,将3D形状从扫描仪坐标系转换为光度立体图像坐标系。此外,DiLiGenT基准[6]提供了一个测试集,这些照片对象的不同视点(除了“Ball”对象)使用相同的照明设置。然而,DiLiGenT[6]中只有少量对象(10个),容易导致在训练深度神经网络时过拟合,并且通过3D扫描仪扫描的形状可能存在误差和模糊。
为了解决这些限制,Ren等人[80]进一步提出了一个新的真实世界光度立体数据集,具有地面真实法线图,即DiLiGenT102,因为它包含的比广泛使用的DiLiGenT基准[6]大十倍(十个形状乘以十种材料的一百个对象)。作者使用十个形状通过高精度计算机数控(CNC)机械加工过程制造对象,而不是扫描现有对象,这大大避免了测量误差。对于每个形状,使用十种材料制作对象,从各向同性(漫反射和镜面反射)到各向异性,再到半透明反射。最近,Wang等人[81]引入了一个真实世界数据集,DiLiGenT-Π,用于详细的近平面表面。这个数据集专门设计用于捕获具有高频详细结构的对象,如硬币和徽章。与DiLiGenT数据集[6]类似,作者使用3D扫描仪获取了这个数据集中30个对象的地面真实3D模型。表II总结了用于深度学习光度立体方法的训练和测试数据集。

VI. 基准评估结果

评估指标是基于角度误差的统计数据。对于整个法线图,平均角误差(MAE)计算如下:
其中是对象上的总像素数,不包括背景位置的像素,分别是位置索引处的地面真实和估计表面法线向量。除了MAE,一些论文还使用了角度误差小于的表面法线数量的比例,表示为$err<x^\circ$[45]、[47]。< p=""></x^\circ$[45]、[47]。<>
在表III中,我们报告了上述基于深度学习的校准(标记为红色)和未校准(标记为绿色)光度立体方法在DiLiGenT基准数据集[6]上使用所有96个输入图像(密集条件)的性能。同样,我们在表IV中回顾了这些校准的深度学习基础光度立体方法在稀疏条件下(10个输入图像)的性能。请注意,并非所有方法都报告了10个输入图像下的结果,一些方法只提供稀疏条件而没有密集输入,如PS-Transformer[56]。

除了深度学习方法,我们还评估了一些代表性的非学习基础校准算法的性能,并将其与基于深度学习方法进行了比较。如表III所示,大多数基于学习的方法由它们的网络名称表示。对于非学习方法和一些没有给出名称的基于学习的方法,我们以作者的姓氏首字母和发表年份来表示它们。为了确保评估的公平性,我们还使用†来表示使用CyclePS[21]训练的网络,这些网络是使用Disney的原则性BSDF数据集[29]进行渲染的。理论上,Disney的原则性BSDFs通过集成各种BRDFs控制的11个参数,可以表示广泛的实际反射属性。因此,CyclePS的反射分布比使用MERL BRDF数据集[28]渲染的Blobby和Sculpture数据集[22]更接近现实世界场景。此外,一些最近的模型在测试时丢弃了“Bear”的前20幅图像(即用剩余的76幅图像进行测试),因为前20幅图像在腹部区域的光度不一致[21]。对于这些方法,我们在表中列出了使用76幅图像和96幅图像测试“Bear”的结果,分别表示为“Bear-76”和“Bear”。为了进行公平比较,这些十个对象的平均MAE使用Bear的结果而不是Bear-76,除了IS22[33]和LL22a[77],它们只报告了Bear-76的结果。此外,SPS-Net[72]丢弃了Bear的结果,因此我们只能通过剩余的九个对象计算平均MAE。由于DiLiGenT基准[6]中只使用了平行白光,我们只能评估校准和未校准光度立体方法,而忽略了近场光、一般光和彩色光的方法。
此外,在图10和11中,我们可视化了12种代表性的基于深度学习的校准光度立体方法。这些可视化比较是基于DiLiGenT基准数据集[6]中的“Reading”和“Harvest”对象。有关更多可视化比较,请参阅https://github.com/Kelvin-Ju/Survey-DLCPS。

在图10和11中,我们评估了根据我们的分类,12种基于深度学习的校准光度立体方法的重建法线图和误差图,以及传统的最小二乘法[1]。基线[1],假设朗伯反射,在高光区域表现出严重错误。相比之下,基于深度学习的方法在高光区域显著改善了结果,展示了深度神经网络对非朗伯表面反射的拟合能力。作为第一个深度网络,DPSN[20]在存在投射阴影的区域(如“Reading”的背面和“Harvest”的口袋)中表现出较差的结果。这种限制是因为DPSN仅基于单个像素的反射观测预测法线向量,忽略了相邻表面点嵌入的信息。在不考虑邻近区域的一些方法中也观察到了类似的问题[31]、[37]。PX-Net[39]将全局信息纳入观测图,因此在阴影和高光区域获得了更准确的重建结果。然而,[39]的可视化法线图显示出稀疏噪声,可能归因于生成全局效应时对相机噪声和自反射设置的次优选择。另一方面,早期的逐补丁方法在具有空间变化反射的区域[22]、[47]、[52]、[78]中遇到错误,例如“Reading”的帽子边缘和“Harvest”的布料。这是因为卷积网络以补丁方式处理输入图像,其中陡峭的颜色变化影响整个补丁,例如“Reading”的帽子和“Harvest”的布料。这个问题最终通过PS-FCN (Norm.)[44]中的归一化操作和NormAttention-PSN[45]中的双门归一化得到了解决,它们可以更好地处理颜色变化的表面。
此外,如表III和IV所示,基于深度学习的光度立体方法的结果通常比非学习方法表现更好,特别是在具有复杂结构和强烈非朗伯反射的对象(“Harvest”,“Reading”)中。这表明了深度学习技术的能力和泛化性。然而,可以看出,大多数深度学习模型在具有几乎漫反射的非常简单的对象上表现普通,例如“Ball”。我们认为,这可能是由于在“复杂”网络结构和“困难”BRDF训练数据集[28]、[29]中的过拟合,这些数据集更关注非朗伯材料[36]。

VIII. 未来趋势

在本节中,我们根据上述部分的讨论,指出了一些有希望的未来发展趋势。首先,我们关注校准光度立体的问题。然后,我们提出了整个光度立体社区的视角。
如第III节所讨论的,我们比较了逐像素和逐补丁方法的独特特征。这些方法可以进一步探索和更好地结合。对于逐像素方法,我们认为可以在观测图[21]中找到进一步的发展,例如多个图像之间的观点(像素对齐)。到目前为止,只有三个真实场景数据集提出了[6]、[80]、[81]。Gourd & Apple数据集[83]包含三个对象,即“Apple”,“Gourd1”和“Gourd2”,分别有112、102和98幅图像。Light Stage Data Gallery[84]由六个对象组成,每个对象提供了253幅图像。然而,这些数据集只提供了校准的光方向,而没有地面真实法线图。因此,只能定性地比较这些方法在这些真实数据集上的表现。
为了定量评估光度立体方法,Shi等人[6]首次建立了一个具有地面真实法线图的真实光度立体数据集,即DiLiGenT,这是光度立体领域最广泛使用的基准。该数据集包括十个具有不同复杂性的对象,从简单的球体到复杂和凹面的几何形状,以及各种材料,包括大多数漫反射和具有空间变化属性的强烈非朗伯表面。作者在不同的照明方向下为每个对象拍摄了96幅图像。为了获得地面真实情况,作者使用结构光基的Rexcan CS扫描仪,与转盘同步以获取3D点云,可以计算表面法线。然后,在Meshlab[97]中执行形状到图像的对齐,将3D形状从扫描仪坐标系转换为光度立体图像坐标系。此外,DiLiGenT基准[6]提供了一个测试集,这些照片对象的不同视点(除了“Ball”对象)使用相同的照明设置。然而,使用DiLiGenT[6]的十个对象进行训练容易导致深度神经网络的过拟合,并且3D扫描仪扫描的形状可能存在误差和模糊。
为了解决这些限制,Ren等人[80]进一步提出了一个新的真实光度立体数据集,即DiLiGenT102,因为它包含的比广泛使用的DiLiGenT基准[6]大十倍(十个形状乘以十种材料的一百个对象)。作者使用十个形状通过高精度计算机数控(CNC)机械加工过程制作对象,而不是扫描现有对象,这大大降低了测量误差。对于每个形状,使用了十种材料来制作对象,从各向同性(漫反射和镜面反射)到各向异性,再到半透明反射。最近,Wang等人[81]引入了一个真实数据集,即DiLiGenT-Π,用于详细近平面表面。这个数据集专门设计用于捕获具有高频详细结构的对象,如硬币和徽章。与DiLiGenT数据集[6]类似,作者使用3D扫描仪获取了这个数据集中30个对象的地面真实3D模型。表II总结了用于深度学习光度立体方法的训练和测试数据集。

VI. 基准评估结果

评估指标是基于角度误差的统计数据。对于整个法线图,平均角误差(MAE)计算如下:
其中是对象上的总像素数,不包括背景位置的像素,分别是位置索引处的真实法线向量和估计的表面法线向量。除了MAE,一些论文还使用了角度误差小于的表面法线数量的比例,表示为$err<x^\circ$[45]、[47]。< p=""></x^\circ$[45]、[47]。<>
在表III中,我们报告了上述基于深度学习的校准(标记为红色)和未校准(标记为绿色)光度立体方法在DiLiGenT基准数据集[6]上使用所有96个输入图像(密集条件)的性能。同样,我们在表IV中回顾了这些校准的深度学习方法在稀疏条件(10个输入图像)下的性能。请注意,并非所有方法都报告了10个输入图像下的结果,一些方法只提供稀疏条件的结果,如PS-Transformer[56]。

除了深度学习方法,我们还评估了一些代表性的非学习型校准算法的性能,并将其与基于深度学习方法进行了比较。如表III所示,大多数基于学习的方法由它们的网络名称表示。对于非学习型方法和一些没有给出名称的基于学习的方法,我们以第一作者的姓氏首字母和发表年份来表示它们。为确保评估的公平性,我们还使用†来表示使用CyclePS[21]训练的网络,这些网络是使用Disney的原则性BSDF数据集[29]进行渲染的。理论上,Disney的原则性BSDFs通过整合各种BRDFs控制的11个参数,可以表示广泛的反射属性。因此,CyclePS的反射分布比使用MERL BRDF数据集[28]渲染的Blobby和Sculpture数据集[22]更接近现实世界场景。此外,一些最近的模型在测试时丢弃了“Bear”的前20幅图像(即用剩余的76幅图像进行测试),因为前20幅图像在腹部区域的光度不一致[21]。对于这些方法,我们在表格中列出了使用76幅图像和96幅图像测试“Bear”的结果,分别表示为“Bear-76”和“Bear”。为了进行公平比较,这些十个对象的平均MAE使用Bear的结果而不是Bear-76的结果,除了IS22[33]和LL22a[77],它们只报告了Bear-76的结果。此外,SPS-Net[72]丢弃了Bear的结果,因此我们只能通过剩余的九个对象计算平均MAE。由于DiLiGenT基准[6]仅使用平行白光,我们只能评估校准和未校准的光度立体方法,而忽略了近场光、一般光和彩色光的方法。
此外,在图10和图11中,我们根据我们的分类,对12种基于深度学习的校准光度立体方法的重建法线图和误差图进行了可视化比较,以及传统的最小二乘法[1]。基线[1],假设朗伯反射,在高光区域表现出严重错误。相比之下,基于深度学习的方法在高光区域显著改善了结果,展示了深度神经网络对非朗伯表面反射的拟合能力。作为第一个深度网络,DPSN[20]在存在投射阴影的区域(如“阅读”的背面和“收获”的口袋)中表现不佳。这种局限性是因为DPSN仅基于单个像素的反射观测预测法线向量,忽略了邻域信息。在不考虑邻近区域的一些方法中也可以观察到类似的问题[31]、[37]。PX-Net[39]将全局信息纳入观测图,从而在阴影和高光区域获得了更准确的重建结果。然而,[39]的可视化法线图显示出稀疏噪声,可能归因于生成全局效果时对相机噪声和自反射设置的次优选择。另一方面,早期的逐补丁方法在具有空间变化反射的区域[22]、[47]、[52]、[78]中遇到错误,如帽子的边缘和头发。这是因为卷积网络以补丁方式处理输入图像,其中陡峭的颜色变化影响整个补丁,如“阅读”的帽子和“收获”的布料。这个问题最终通过PS-FCN (Norm.)[44]中的归一化操作和NormAttention-PSN[45]中的双门归一化得到解决,它们可以更好地处理颜色变化的表面。
此外,如表III和表IV所示,基于深度学习的方法的结果通常比非学习方法表现更好,特别是在具有复杂结构和强烈非朗伯反射的对象(“收获”,“阅读”)中。这表明了深度学习技术的能力和泛化性。然而,可以看出,大多数深度学习模型在具有几乎漫反射的非常简单的对象上表现普通,如“球”。我们认为这可能是由于在“复杂”网络结构和“困难”BRDF训练数据集[28]、[29]中的过拟合,这些数据集更关注非朗伯材料[36]。

VIII. 未来趋势

在本节中,我们根据上述部分的讨论,指出了一些有希望的未来发展趋势。首先,我们关注校准光度立体的问题。然后,我们提出了整个光度立体社区的视角。
如第III节所讨论的,我们比较了逐像素和逐补丁方法的独特特征。这些方法可以进一步探索和更好地结合。对于逐像素方法,我们认为可以在观测图[21]中找到进一步的发展,例如如何通过基于图的网络[98]优化非结构化光向量在“观测图”中,如何以逐像素方式嵌入相邻表面点的信息。对于逐补丁方法,我们认为图像间(补丁间)的融合仍然需要改进。现有方法应用最大池化[22]、[45]、[52]或流形学习[50]来聚合任意数量的输入图像。然而,这些方法在融合特征方面利用不足,或者遭受繁琐的训练流程。因此,应该提出更好的融合策略,可以利用自注意力机制[27]来学习输入特征的权重。当然,一个更深远的研究方向是如何有效地结合逐像素和逐补丁方法,这已经在最近的结合工作中进行了初步讨论[40]、[68],并且可以通过相互结合更多的物理线索进一步探索。此外,我们认为通过挖掘先验知识[31]、[71]和监督[63]、[67],深度学习光度立体模型可以进一步改进。
实际上,上述许多基于深度学习的光度立体方法都是校准光度立体算法,它们假设了严格的要求,如准确的入射照明方向、方向性照明和标准的暗室等。在实际应用中,许多假设都得不到满足。在审视现实环境时,我们自然期望一个通用或通用模型,能够同时处理未校准的光线[59]、[61]、彩色光[67]、[99]、近场光[100]、[101]、一般光线[102],甚至透视投影相机。最近的一项鼓舞人心的工作UniPS[73]首次放弃了物理照明模型,提取了图像互动中的通用照明表示。这使得UniPS能够适应各种照明场景,包括平行照明、空间变化照明、近场照明和户外野生照明。此外,Ikehata介绍了SDM-UniPS[74],旨在处理高分辨率输入图像,并考虑表面点之间的非局部交互。SDM-UniPS[74]实现了在通用光线环境下的可扩展、详细和无掩模的光度立体重建。然而,这些方法在处理光度立体图像时可能会遇到限制,这些图像的照明变化很小。这种限制源于它们依赖于交互机制来学习全局照明上下文,而不是从每个单独的输入中提取特征。在这个方向上,我们认为更多的工作可以探索更有效的通用照明提取方法。
此外,神经渲染技术的最新进展,即神经辐射场(NeRF)[103],在与多视图重建集成时,已经在光度立体中展示了巨大的潜力。一些方法结合了NeRF和多视图光度立体[104]、[105],这些方法首先估计每个视图的表面法线图,然后与多视图神经辐射场表示混合,以重建物体的表面几何形状。多视图光度立体方法可以提供全面的3D形状感知,而几乎所有的单视图光度立体方法都无法恢复不可见部分(S3-NeRF[66]可以通过单视图光度立体图像学习神经场景表示,以恢复不可见的3D部分)。值得注意的是,这些基于NeRF的多视图光度立体技术可以避免与传统多视图光度立体方法相比的显著累积误差,后者通常涉及多个不连续和复杂的阶段。然而,现有的基于NeRF的光度立体方法仍然存在局限性,可以作为未来趋势进行探索。首先,基于NeRF的光度立体方法计算负担重,需要为新对象进行长时间的重新训练。其次,这些方法接受多视图多光光度立体图像作为输入,这涉及到在变化光线方向时固定相机。我们认为可以探索更多基于神经渲染技术的工作,基于多视图单光,即光线可以与移动的相机相关联,可能增强在现实世界应用中的可用性。

IX. 结论

在本文中,我们对基于深度学习的光度立体方法进行了系统回顾。根据我们的分类,我们专注于校准的基于深度学习的光度立体方法,我们已经通过将这些模型按输入处理、监督和网络架构进行分类,总结了和讨论了这些模型的优势和劣势。我们还介绍了光度立体领域中使用的培训数据集和测试基准。然后,我们评估了三十多个校准和未校准的深度学习模型在广泛使用的基准上的性能。与传统的非学习方法相比,基于深度学习的光度立体模型在估计表面法线方面更为优越。最后,我们指出了光度立体领域的未来趋势。我们希望这项调查将帮助研究人员在这一不断增长的领域中定位自己的发展方向,并突出未来研究的机会。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 计算机书童 小编



计算机书童
为大家分享计算机、机器人领域的顶会顶刊论文
 最新文章