TPAMI 2024 | 面向快照式高光谱成像的非串行量化感知深度光学

文摘 2024-11-05 19:00 辽宁

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Non-Serial Quantization-Aware Deep Optics for Snapshot Hyperspectral Imaging

题目：面向快照式高光谱成像的非串行量化感知深度光学

作者：Lizhi Wang; Lingen Li; Weitao Song; Lei Zhang; Zhiwei Xiong; Hua Huang
源代码：https://github.com/wanglizhi/NonSerialQuantizationAwareDeepOptics

摘要

深度光学一直致力于捕获动态场景的高光谱图像，其中光学编码器在决定成像性能中起着至关重要的作用。我们的关键见解是，深度光学系统的光学编码器应该同时具备制造友好性和解码友好性，分别在实现阶段忠实地实现，在设计阶段与解码器充分互动。在本文中，我们提出了非串行量化感知深度光学（NSQDO），它包括制造友好的量化感知模型（QAM）和解码友好的非串行方式（NSM）。QAM将量化过程集成到优化中，并自适应调整每个量化级别的物理高度，通过量化操作的感知和适应，减少物理编码器与数值模拟之间的偏差。NSM通过双向提示连接（BHCs）和门控机制灵活化连接，增强深度光学中联合优化的能力。提出的NSQDO改善了编码器的制造友好性和解码友好性，发展了深度光学框架，使其更加实用和强大。广泛的合成模拟和真实硬件实验表明，所提出的方法具有优越的性能。

关键词

计算摄影
深度光学
快照高光谱成像

I. 引言

高光谱成像捕获每个像素位置的场景的光谱强度，作为一个3D数据立方体，详细描述了场景信息。高光谱成像在各种传感应用中具有优势，从基础研究领域，例如生物医学检查、材料分析和环境监测[1],[2],[3],[4]，到计算机视觉应用，例如外观获取、面部识别和目标跟踪[5]，[6]，[7]。传统的高光谱成像系统沿空间或光谱维度扫描场景，需要多次曝光才能捕获完整的高光谱图像[8]。这些基于扫描的系统无法测量动态场景，因为长时间曝光，使得单次传感器曝光的快照高光谱成像成为最吸引人的解决方案之一。

为了捕获动态场景中的高光谱图像，已经开发了各种快照高光谱成像系统[9]，[10]。经典系统主要基于几何光学，由一系列折射或反射光学元件组成[11]，[12]，[13]，[14]，[15]，体积庞大，因此遭受系统复杂性和校准困难的困扰。为了克服这些限制，通过用薄的衍射光学元件（DOE）替换几何光学元件，开发了衍射快照高光谱成像系统[16]，[17]，[18]，[19]，避免了冗余光学元件的需要，允许普通用户捕获高光谱图像。

从根本上说，衍射快照高光谱成像系统需要设计DOE高度图来光学编码3D高光谱图像为2D测量，并定制算法解码器以逆转编码器过程以重建高光谱图像。由于解码器易于调整以与编码器协作，决定成像性能的关键在于编码器部分，即DOE高度图。先前的方法尝试使用关于点扩散函数（PSF）的手工艺先验或启发式知识来设计DOE高度图，但将DOE硬件与重建算法隔离开来[19]。最近，引入了深度光学框架，通过端到端优化光学编码器和重建解码器[20]，[21]，[22]，[23]，[24]，这已成为衍射快照高光谱成像中最有希望的方向[25]，[26]。

我们的关键见解是，理想的深度光学系统的光学编码器应该是制造友好和解码友好的，如图1所示。具体来说，制造友好性要求编码器在物理世界中忠实地制造以保持编码器的有效性，解码友好性希望编码器与解码器充分互动以产生可以由解码器重建的图像。制造友好性和解码友好性分别描述了光学编码器的实现和设计，共同决定了光学编码器以及深度光学系统的实用性和有效性。然而，当前的深度光学系统忽略了制造友好性和解码友好性，降低了深度光学在快照高光谱成像中的能量和限制了性能。

从制造友好性的角度来看，物理世界中制造的DOE应该尽可能接近数字仿真中的优化DOE。当前的工作都采用全精度（通常是32位浮点）进行DOE高度图优化，并假设在DOE制造中也使用相同的全精度，而用于制造物理DOE的常见光刻技术需要配置DOE高度图的量化水平[27]。实际上，成熟的光刻技术通常支持不超过32个量化水平，如果需要高光刻稳定性，则只有4个量化水平。在这种情况下，用全精度优化的DOE高度图必须在物理制造过程中进行量化，这意味着编码器仿真模型在实际系统上不再准确。因此，制造的DOE编码器会因量化而偏离优化的DOE编码器，打破了联系并导致光学硬件与数值模拟之间的不匹配。

从解码友好性的角度来看，编码器应该与解码器充分互动和匹配，否则系统将失去联合优化的关键思想。当前的深度光学方法仅通过瓶颈连接，即编码图像，将编码器和解码器连接起来。在这种情况下，联合优化必须在编码器和解码器之间采用串行机制，编码器和解码器除了通过这个薄弱的瓶颈连接之外没有互动[28]。因此，编码器和解码器是相互盲目的，编码器很难产生容易被解码器重建的测量结果，导致编码器和解码器之间的系统性不匹配。

在本文中，我们提出了用于快照高光谱成像的非串行量化感知深度光学（NSQDO），如图2所示。首先，考虑到制造友好性，我们为编码器提出了量化感知模型（QAM），在其中我们在DOE优化期间显式地模拟量化操作，弥合了由于量化在仿真和制造之间造成的鸿沟。此外，利用每个量化级别的DOE高度图可以在特定范围内自由设置为任意值的事实，我们提出了一种自适应量化感知机制，在DOE高度图优化期间调整每个级别的物理高度。制造友好的QAM通过感知和适应DOE物理结构的量化操作，减少了编码器与数值模拟之间的物理偏差。

然后，考虑到解码友好性，我们提出了联合优化的非串行方式（NSM）。在NSM中，深度光学的编码器和解码器不仅通过瓶颈连接，还通过多个门控双向提示连接（BHCs）在联合优化期间连接。随着联合优化的前向传播，BHCs直接向解码器提供PSF的提示，将解码器从盲目变为非盲目对编码器；随着联合优化的反向传播，BHCs将解码器的提示带回编码器，并根据解码器的需求更新DOE高度图。同时，我们提出的门控BHC中的门控机制可以根据自己的需求，选择性地控制提示信息的反向传播。解码友好的NSM通过增强联合优化期间的编码器-解码器互动，增强了深度光学的联合优化能力。

总之，通过结合制造友好的QAM和解码友好的NSM，NSQDO模型改善了编码器的制造友好性和解码友好性，并发展了深度光学框架，使其更加实用和强大。我们最终使用NSQDO模型优化的DOE高度图制造DOE，并构建了一个衍射快照高光谱成像系统，以验证所提出方法在实际情况下的有效性。这项工作与我们之前的工作[29]相比，性能有了显著提升。我们已经在https://github.com/wanglizhi/NonSerialQuantizationAwareDeepOptics上发布了代码。

这项工作的主要贡献总结如下：

我们提出了一种制造友好的量化感知模型（QAM）用于深度光学，通过联合优化量化DOE和重建算法，用于衍射快照高光谱成像。该模型结合了一个自适应机制，在DOE高度图优化期间调整每个量化级别的物理高度，有效地近似通过全精度制造实现的无法实现的预言性能，简化了制造过程，并降低了实施阶段的成本。
我们提出了一种解码友好的非串行方式（NSM）用于深度光学，通过在编码器和解码器之间建立双向提示连接（BHCs），增强了联合优化。这些连接进一步通过门控机制增强，该机制选择性地控制它们的反向传播过程，最终将深度光学的成像性能提升到一个新的水平。
我们制造了优化的DOE，并构建了一个衍射快照高光谱成像系统，以验证我们所提出的方法。通过广泛的模拟和真实硬件实验，我们展示了我们所提出的方法的显著优越性。

III. 制造友好量化感知模型

让我们从制造友好量化感知模型（QAM）开始，其中物理DOE高度图的量化在数值模拟中被显式建模。制造友好QAM通过感知和适应DOE高度图的物理量化，提高了编码器的理论精度。在本节中，我们首先描述衍射成像模型作为仿真的基础。然后，我们引入了制造友好QAM中的量化感知DOE，它在PSF公式中模拟了物理量化。最后，我们提出了一个自适应机制，以决定每个量化水平的物理高度。

A. 基础成像模型

通常，衍射成像系统由DOE组成，用于光学调制，裸RGB传感器用于捕获调制后的图像。DOE的调制可以使用PSF模型来表示。我们基于傅里叶光学[67]构建了系统的这一部分。图3展示了从点源通过DOE传播到传感器平面的波场过程。假设波长为λ的点源位于距离DOE d的距离处，DOE位置（x，y）处的波场可以表示为：

当波场通过DOE时，引入了相位延迟φ(x, y)。然后，波场可以表示为：

其中是系统的光学孔径。相位延迟φ(x, y)由DOE的高度图决定：

通常，DOE的高度图具有旋转对称参数化，以减少计算复杂性[25]。

我们采用菲涅尔近似来制定从DOE到传感器的波场传播。当波场传播距离z并到达传感器平面时，可以从通过菲涅尔衍射定律获得波场。

其中和分别是x和y的频率变量，F表示傅里叶变换。

PSF P是波场的平方值的强度：

制定PSF后，我们可以使用系统进行成像。原始高光谱图像首先被PSF调制为卷积：

然后，高光谱图像被传感器捕获，每个波长都有一个光谱响应函数，并变成RGB图像。这种成像过程通常会引入一些传感器噪声。

其中是最小波长，是最大波长，是传感器噪声。在实践中，我们以离散形式计算光谱响应：

其中Λ是光谱响应函数的离散矩阵形式。

B. 基础量化感知DOE

从第三节A部分的衍射成像模型中，我们可以看到DOE的高度图决定了成像系统的PSF。因此，为了实现定制编码，已经做出了巨大努力来优化DOE高度图[23]，[25]。这里，我们引入了基础QAM，它在DOE优化期间考虑了量化操作，使DOE高度图在优化后自然量化。我们利用alpha混合方法[56]来训练量化的DOE。假设我们可以通过直接优化像以前的方法一样获得全精度高度图[25]，[26]。然后量化感知高度图是量化分支和全精度分支的加权和：

其中是量化函数，是混合参数。

量化函数用于将全精度高度图量化为在最大物理高度内的L个均匀划分的水平：

其中L是制造中支持的量化水平数。混合参数随着训练步骤s增加而增加：

其中和分别是混合开始和结束的训练步骤指标。我们使用三次函数来控制平滑混合。线性或二次函数也可以作为替代品，而不会显著影响最终性能。在之前的训练步骤中，为0，高度图是全精度的。在和之间的训练步骤中，三次函数将从0变为1，量化感知高度图从全精度版本过渡到量化版本。在之后的步骤中，变为1，高度图完全量化。

C. 自适应机制

全精度高度图在深度光学框架中是理想的，因此量化DOE在量化水平的约束下应尽可能接近全精度优化的预言性能。基于观察到的每个量化水平的DOE高度图可以自由设置为特定范围内的任意值，我们进一步提出了一个自适应量化感知机制，通过在DOE高度图优化期间调整每个级别的物理高度，有效地减少量化偏差。

图4显示了自适应机制的详细信息。具体来说，有了自适应机制，量化感知高度图可以表示为：

其中是在均匀量化高度图上执行的自适应操作符。自适应操作符在每个量化水平的DOE高度图上增加了一个可训练权重：

其中l表示特定的量化水平。

通过训练来最小化量化高度图和全精度高度图之间的均方误差：

其中J表示高度图的像素计数。这个目标被视为训练损失的一部分。

有了特定的高度图，传感器捕获的RGB图像可以根据第三节A部分中的成像模型确定。

IV. 解码友好非串行方式

除了制造友好QAM之外，我们进一步提出了解码友好NSM，其中深度光学的编码器和解码器在联合优化期间通过BHC相互连接。解码友好NSM通过增强联合优化期间适当和灵活的编码器-解码器交互，增强了深度光学的联合优化能力。在本节中，我们首先开发了与NSM配合的高光谱图像重建#### A. 高光谱图像重建

深度光学中的解码器指的是从衍射成像模型编码的RGB图像中重建高光谱图像：

其中R代表重建方法（即解码器）。传统的深度光学中的高光谱图像重建主要基于蛮力深度神经网络[25]，[26]，而内部结构难以解释且忽略了成像任务的领域特定知识（即编码器）。因此，我们不是使用纯深度神经网络，而是首次采用深度展开网络作为深度光学的解码器。

具体来说，从编码的RGB图像中重建高光谱图像可以表示为最大后验（MAP）估计：

为了简化，我们将编码的RGB图像写为E。通过替换（8），MAP问题（16）可以被表述为以下优化问题，包含数据项和正则化项：

其中Z(·)代表正则化项，提供先验信息，μ是控制数据项和正则化项之间平衡的参数。

由于（17）中的优化问题难以直接解决，我们采用辅助变量G来解耦数据项和正则化项。然后，（17）可以被写为以下约束优化问题：

约束优化问题（18）可以使用半二次分割方法[66]转换为非约束优化问题：

其中ξ是惩罚参数，强制辅助变量G与I的身份约束。（19）可以被分为两个迭代子问题，即数据保真项的I问题和正则化项的G问题：

其中k ∈ 0, 1, ..., K代表迭代步骤，K是迭代的总次数。

I问题是二次正则化最小二乘问题，由于其不适定性，几乎难以直接解决。因此，我们采用单步梯度下降来以模型驱动的方式解决I问题：

其中ϵ是梯度下降的步长，O_f(·)代表前向光学编码过程：

O_b(·)是伪反向操作符：

正则化G问题通常使用数据驱动模块中的深度神经网络解决。这个过程可以表示为：

其中T_k代表k-th数据驱动模块，解决k-th G问题。具体来说，我们采用Res-UNet[68]作为数据驱动模块。

最后，我们通过展开模型驱动数据保真项（22）和数据驱动正则化项（25）构建重建网络。图5显示了高光谱图像重建的深度展开网络架构。网络具有多个迭代，每个迭代具有其模型驱动和数据驱动模块。

这里，我们强调提出的NSM基于深度展开网络，但除此之外，我们通过核心BHC及其门控机制促进了编码器和解码器之间的交互。

B. 门控双向提示连接

基于第IV-A节中描述的解码器，我们提出了NSM的关键组件，门控BHC，以充分且适当地链接编码器和解码器，实现解码器友好的编码器。图6比较了传统的串行方式和带有门控BHCs的NSM。

BHC作为连接，将PSF P和光谱响应Λ的信息从编码器明确传递到解码器的每个迭代的前向传播中的Of(·)和Ob(·)操作。这种来自编码器的提示将解码器从盲目问题转变为非盲目问题，积极地使解码器更容易从编码的RGB图像中重建高光谱图像。

在反向传播过程中，BHCs将梯度从解码器带回编码器，有助于更新DOE高度图。这种更新直接来自解码器部分，而不是通过瓶颈连接（编码RGB图像），从而导致更合理的编码模式与解码器系统性对齐。

此外，我们发现解码器的一些迭代在训练初期产生不满意的重建结果。正常的BHCs在反向传播中传递提示信息时不加区分，这可能是导致不当编码器-解码器交互的潜在因素。因此，我们提出了一个门控机制，根据重建误差选择性地控制每个BHC的反向传播。带有这种门控机制的BHC被称为门控BHC。

具体来说，从端到端损失L到连接编码器和k-th模型驱动模块的k-th门控BHC的梯度可以表示为：

其中gk是所提出的门控机制的门控变量。图7显示了解码器的一个迭代中BHC的门控机制。

k-th迭代的门控变量gk可以表示为：

其中M表示门控度量函数，计算当前迭代输出Ik与真实值I之间的重建误差，t是门控阈值。在我们的实现中，我们选择无量纲ERGAS度量[69]作为门控度量函数M，阈值t设置为50。门控变量gk只能是0或1，分别代表禁用或启用的门控。当门控变量gk变为1时，k-th解码器迭代中的门控BHC的反向传播保持不受门控机制的影响。相反，当门控变量gk变为0时，门控BHC Bk的梯度被修改为0。在这种情况下，门控BHC Bgated_k的反向传播被完全阻塞。这也确保了修改后的路径在反向传播中不贡献给前一层的权重更新，消除了某些梯度修改器（例如STE[50]）遇到的梯度不匹配问题[70]。

由于门控BHC Bk是恒等连接，它对反向传播贡献的梯度始终为1。因此，带有BHC的深度光学模型中从端到端损失L到PSF的梯度可以写为：

这是通过RGB图像E和所有门控BHCs传播的梯度的总和。

C. 联合优化

一旦设计了编码器和解码器，我们就训练整个网络，同时优化编码器和解码器，以获得用于制造的DOE高度图和与物理系统配合的重建网络。训练损失函数L由高光谱图像重建的重建损失Lh、QAM的自适应量化损失，以及每个数据驱动模块中的Res-UNet网络权重的正则化组成：

其中和是缩放参数，分别设置为和，表示重建网络中Res-UNet的权重。重建损失评估重建高光谱图像与真实值之间的平均绝对误差：

其中表示图像的像素计数。

我们使用TensorFlow2实现网络，并使用Adam优化器进行训练，共50个周期，批量大小为4。学习率最初设置为0.005，并在每个周期后指数衰减至80%。网络参数使用Xavier均匀初始化[71]。图8绘制了训练损失和验证损失随训练周期的变化，验证了所提出方法的收敛性。我们使用的机器配备了Intel Xeon Gold 5218R CPU，64 GB内存和NVIDIA RTX 3090 GPU。

在联合优化期间，编码器的和分别设置为第5个周期结束时和第40个周期结束时。解码器的迭代次数设置为，参数和分别初始化为0.8和0.1。在我们的实现中，所有参数在每个迭代中都设置为不同，因为随着迭代次数的增加，重建质量得到改善；因此，网络参数和优化参数应相应改变。我们使用作为数据驱动模块的Res-UNet有6层最大池化，一个中间层和6层上采样。每个层都是一个包含3个卷积层、一个跳跃连接和激活函数的残差卷积块。每层的激活函数是ELU。我们在Res-UNet的尾部添加了Sigmoid激活函数，以将输出值限制在0和1之间。

V. 合成模拟

在本节中，我们在ICVL数据集[72]上进行合成模拟，以评估我们模型的有效性。ICVL数据集包含201个自然场景，空间分辨率为1392×1300，光谱通道31个，波长从400 nm到700 nm，间隔10 nm。我们随机将这些光谱场景分为三部分，其中167个场景用于训练，17个用于验证，17个用于测试。对于每个场景，我们将其裁剪为512×512大小的重叠块。我们根据第VI节中列出的物理实验配置设置硬件系统的物理参数。具体来说，DOE像素大小为8μm×8μm。场景与DOE之间的距离为1米，DOE与传感器平面之间的距离为50毫米。DOE使用SK1300熔融石英材料的折射率，基板厚度设置为2毫米。我们还测量了FLIR BFS-U3-31S4C-C相机的RGB响应曲线，并将其配置为模拟中的光谱响应函数。

A. 模型评估

在本节中，我们对我们提出的快照高光谱成像模型进行了全面的性能评估，并将它们与作为我们基线的常规DO模型[25]，[26]进行了比较。配备所提出的QAM的DO模型被称为量化感知DO模型（QDO）。将所提出的NSM纳入DO模型称为非串行DO模型（NSDO）。使用QAM和NSM的DO模型称为非串行量化感知DO（NSQDO）。对于常规DO模型，DOE高度图在训练中以全精度（32位浮点）优化，并在测试中量化为多级样式[25]，[26]。最初，常规DO模型使用纯深度神经网络作为解码器。为了进行公平比较，我们进一步将常规DO模型的解码器部分替换为我们在第IV-A节中描述的基于深度展开的重建网络。由于成熟的光刻技术通常支持不超过32个量化水平，而2级DOE在实际中几乎不使用，我们进行了从4到32个量化水平的合成模拟，以比较不同DO模型在高光谱图像重建中的性能。

表I比较了不同模型的性能。此外，还包括了通过不可能的全精度制造实现的预言性能作为参考。结果表明，制造友好模型QDO和解码友好模型NSDO都一致优于常规DO模型，突出了制造友好性和解码友好性的进步，从而提高了高光谱成像质量。值得注意的是，制造和解码友好模型NSQDO在所有量化水平上均实现了最高性能，展示了QAM和NSM之间的相互有益合作。这些发现验证了所提出的NSQDO用于快照高光谱成像的有效性。此外，制造和解码友好模型NSQDO在每个量化水平上都实现了最佳性能，这证明了QAM和NSM之间的相互合作，并验证了所提出的NSQDO用于快照高光谱成像的有效性。

图9显示了五个不同图像的重建结果。为了同时呈现所有光谱波段的结果，我们将高光谱图像转换为sRGB，根据模拟中的光谱响应函数。我们还展示了每个图像的一个光谱波段。显然，QDO模型、NSDO模型和NSQDO模型可以产生视觉上令人愉悦的结果，与常规模型相比，伪影更少，边缘更清晰。我们还绘制了随机补丁的光谱曲线，如第V-A节所示。所提出的模型重建的光谱曲线更接近真实值。具体来说，当存在量化要求时，制造友好模型（QDO和NSQDO）在空间图像质量和光谱曲线保真度方面比非制造友好模型（DO和NSDO）具有明显优势，这与数值比较结果一致。我们还展示了4级NSQDO模型的高度图和相应的PSF，如图10所示。这些高度图已经量化，可以直接用于制造，无需额外处理。

B. 额外分析

QAM的自适应机制：QAM的自适应机制可以调整量化水平的物理高度，通过可学习的权重减少QDO的均匀量化引起的偏差。我们进行实验以展示QAM的自适应机制的重要性。表II显示了在4级量化下，有无自适应机制的QAM的性能比较。数字结果明显显示了自适应机制的有效性。

我们也展示了所提出的QAM模型量化的DOE高度图和的深入分析。我们计算了有和没有自适应机制的QAM模型的量化和全精度高度图之间的平均绝对误差（MAE）。表III中的结果表明，自适应机制有效地减少了量化高度图和全精度重量之间的量化偏差，从而显著提高了高光谱图像重建，接近预言性能。

此外，我们在图11中可视化了全精度DO、4级QDO无自适应机制和4级QDO带自适应机制优化的DOE高度图的分布。显然，优化的全精度DOE的高度图分布不均匀，表明均匀划分的水平不是最优的量化策略。相应地，自适应机制可以自适应地遵循全精度DOE的分布。

NSM的门控机制：NSM的门控机制可以选择解码器的提示信息以促进编码器的更新。我们进行实验以展示NSM的门控机制的效率。此外，在我们的初步工作[29]中，我们采用了正常的Res-UNet作为解码器。这里，我们列出了Res-UNet解码器的性能和参数作为参考，以验证NSM的改进。

表IV显示了在4级量化下的消融实验结果。显然，NSM可以提高性能，并与正常的Res-UNet解码器相比减少参数，门控机制进一步扩大了这种改进。此外，我们统计了每个训练周期中启用的门控数量，并将结果与训练损失一起绘制在图12中。大多数门控从禁用状态开始，并随着训练周期的增加和损失的减少逐渐切换为开启状态，这验证了NSM的门控机制的动机。

不同快照高光谱成像系统的比较：快照高光谱成像系统可以仅用一次2D测量捕获3D高光谱图像，代表性系统包括在[26]中比较的菲涅耳透镜系统，Jeon等人提出的衍射高光谱成像系统[19]和我们讨论的基于DO的系统。这里，我们评估了不同衍射快照高光谱成像系统的性能。为了进行公平比较，我们采用我们在第IV-A节中使用的相同重建网络用于所有衍射快照高光谱成像系统。同时，这些系统中的DOE量化水平设置为4。

表V显示了不同衍射快照高光谱成像系统的数字重建结果。我们可以看到，基于DO的系统优于其他系统，并且所提出的制造友好和解码友好的NSQDO模型进一步提高了性能，具有很大的优势。

VI. 物理实验

我们使用多级光刻技术制造了4级制造和解码友好的NSQDO模型（包括QAM和NSM）的优化DOE。由于QAM，优化的DOE结构已经是量化的，并且对制造友好，这意味着它可以直接用于DOE制造。然后，我们使用制造的DOE构建了快照高光谱成像系统的原型。制造实验中使用的所有物理参数已经在第V节中列出。

图13显示了我们制造的DOE和构建的原型相机。制造的DOE安装在相机上，使用支持相机侧C接口的定制连接器，并将DOE置于距离传感器平面50毫米的位置。DOE的直径为半英寸，衍射图案区域大小为4.096毫米。DOE上没有衍射图案的区域被定制的钢孔径遮挡。

我们采用与制造的DOE相关的解码器网络来重建高光谱图像。所有捕获的场景都位于距离原型相机1米远的地方，与模拟一致。为了避免相机成像管道中的内部颜色处理，我们禁用了伽马校正，并且仅使用其线性去马赛克方法将RAW图像转换为RGB图像。

图14、15、16、17和18显示了原型相机捕获的RGB图像和五个不同场景的相应重建结果。我们将重建结果与常规DO系统[25]、[26]进行了比较。可以看出，所提出的NSQDO系统可以产生更好的结果，与常规DO系统相比，伪影更少，内容更清晰。我们还使用商用光谱仪（StallerNet Blue）捕获了地面真实光谱曲线。我们的方法重建的光谱更接近地面真实值，这证明了我们方法在真实硬件系统中的有效性。

VII. 讨论

A. 局限性

QAM的有限有效范围：我们的量化感知模型在制造技术只能蚀刻32个或更少水平的情况下优于常规模型。当制造中的量化精度变得更高时，量化误差不再是影响深度光学重建性能的主要因素之一。在这种情况下，所提出的QAM带来的改进将不会明显。

由于更多的DOE水平需要更复杂的光刻蚀刻处理，这也会导致高成本，量化感知模型是在优化自由度和制造物理限制之间的合理权衡。在制造的DOE光刻技术能够以非常低的成本蚀刻数百个水平或更精确的结构之前，这种量化感知深度光学方法始终是有意义的。

光学仿真模型的近似：我们的光学仿真模型是基于抛物线近似构建的，即PSF是空间不变的。为了满足抛物线近似的要求，我们的系统设计有一个相对较大的f数（即≈12.2），这导致我们的成像系统有一个小的有效视场。

使用空间变化的PSF模型可以解决这个问题。然而，这个模型比当前的空间不变模型具有更多的计算复杂性，并且它还需要更多的GPU内存。寻找一个在计算复杂性和仿真精度之间实现更好权衡的高效建模方法将是有意义的未来工作。

B. 未来工作

推广到其他成像任务：尽管所提出的制造友好和解码友好NSQDO是为快照高光谱成像而设计的，但它可以推广到其他成像任务，包括HDR成像、大视场成像等。设计一个针对多个成像任务的通用制造和解码友好框架是一个有趣的未来研究方向。

扩展到复合光学：我们讨论了仅使用一个薄DOE作为光学编码器的情况，因为我们的研究是从衍射快照高光谱成像的角度开始的。最近的工作联合优化多个复杂元素[73]和整个相机流水线[46]为特定成像任务揭示了深度光学类计算成像系统的潜力。将制造友好性和解码友好性的思想扩展到深度复合光学将是一个有趣的未来工作。

解决制造友好模型中的随机因素：本研究的主要目标是强调制造友好性的重要性，关注的是制造技术施加的量化要求。虽然我们主要关注确定性量化，这引入了仿真和制造之间的差异，但承认制造误差等额外随机因素的存在至关重要，例如DOE的制造误差、相机系统组装误差等。开发特定机制以增强整个系统对这些随机因素的鲁棒性可以显著提高深度光学的实际应用性。

例如，将传统的公差分析方法扩展到包含端到端任务特定深度光学是一个激动人心的研究领域。具体来说，当前深度光学中的联合优化可能会产生在仿真中表现良好的解决方案，但在端到端损失景观中表现出不稳定性。因此，即使光学结构的微小变化也可能导致最终任务特定性能的显著降低。因此，开发一种既优化又稳定的编码器-解码器设计的机制变得至关重要，因为它增强了整个系统对现实世界场景中随机噪声的鲁棒性。

因此，全面考虑这些随机因素的未来研究也具有很大的价值，因为它们也可以为缩小深度光学研究与其实际工业应用之间的差距做出贡献。

VIII. 结论

在本文中，我们强调了深度光学的两个基本期望：制造友好性和解码友好性，并提出了用于快照高光谱成像的NSQDO，它包括制造友好的QAM和解码友好的NSM。QAM通过将量化过程集成到优化中，并使用自适应机制调整每个级别的物理高度，确保编码器模型对物理制造友好。NSM通过使用BHC增强编码器-解码器交互，使编码器模型对解码器友好，并在联合优化期间使用门控机制灵活化BHC。我们最终制造了一个DOE原型，并构建了一个真实的硬件系统用于快照高光谱成像。合成模拟和物理实验验证了我们方法在提高快照高光谱成像实际性能方面的有效性。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247494633&idx=2&sn=4ed53508927785cfb77b7467ed13c3fd

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文