显示专题 | 半监督训练,衍射模型驱动的神经网络助力全息显示(Optica OE)

文摘   科技   2024-12-24 11:40   上海  
半监督训练策略,衍射模型驱动的神经网络助力真实全息显示
Diffraction Model-driven Neural Network with Semi-supervised Training Strategy for Real-world 3D Holographic Photography

本期导读

基于学习的计算机生成全息技术(CGH)在实现实时全息三维显示方面显示出巨大的潜力。然而,监督训练策略需要提前获取高质量的标记POH数据集,数据集的质量限制了训练性能和POH泛化的上限。无监督训练策略由于没有标记数据集,只能对 POH 的重建图像进行约束,因此缺乏对 POH 的直接约束,导致神经网络生成的 POH 不够准确。

鉴于此,上海大学的研究人员提出了一种基于半监督训练策略(SST-holo)的衍射模型驱动神经网络,无需高质量的标记数据集。结合了单目深度估计算法,并在网络中加入 Res-MSR模块,自适应地学习不同尺度的图像特征,增强了网络的学习能力。采用随机拼接处理策略(RSPS))数据集进行预处理,以确保数据集中的原始特征不被破坏。通过单色和彩色光学实验验证了半监督训练策略具有良好的三维效果和泛化能力。该工作近期以论文形式发表于光学领域老牌期刊《Optics Express》上。

技术路线

技术实现上,该研究引入了 Res-MSR 模块,由预训练的 ResNet34 和多尺度残差块组成。预训练的 ResNet34 可以提高模型的泛化能力,多尺度残差块可与不同大小的卷积核配合使用,以自适应性地检测不同尺度的图像特征。

图1. 目标复振幅生成器网络结构示意图(下采样通过 Res-MSR 模块实现)。


该研究提出了半监督损失函数,其由相位约束损失和振幅约束损失组合而成,同时约束了神经网络生成的相位和重建图像的振幅。与依赖标记数据的监督学习方法不同,监督学习方法需要提前生成大规模、高质量的标记 POH,而半监督训练策略则需要质量不高的标记数据集。这是因为神经网络只需要学习监督数据集中的特征,就能改变网络参数的收敛方向。
对于相位约束损失,计算 SST-holo 预测的POH和标记POH之间的损失,以学习标记数据中的特征,并约束预测 POH 的相位分布。使用负皮尔逊系数(NPCC)和优化后的焦点频率损失(FFL_adj)的组合作为振幅约束损失。


图2. 相位约束损失函数流程图。


在数据集方面,对训练数据集采用了随机拼接处理策略(RSPS)和深度图归一化处理策略(DNP),防止数据集中的原始特征被扭曲,解决了算法在一些情况下无法正确预测 POH 的问题。该研究搭建了基于时分复用的全息显示光学实验系统,对不同算法及不同深度的绿色通道的光学重建结果进行了比较。如图3所示,SST-holo能明显减少重建图像中的伪影,改善图像的均匀性和对比度,具有更好的观察效果。


图3. 不同算法及不同深度的绿色通道的光学重建结果比较。

接下来对彩色重建的结果进行了比较(如图4所示)。结果证明SST-holo能够在正确距离重建图像,并具有良好的泛化能力。

图4. 三维彩色重建结果。(a)和(c)分别表示320毫米和300毫米处重建图像聚焦部分的放大显示。(b) 每组图像的上部和下部分别代表300毫米和320毫米处的重建图像。(d) 相应的彩色 3D POH。

技术小结:与现有的基于学习的 CGH 相比,该研究采用了一种新的半监督训练策略,即在神经网络的训练阶段同时使用相位约束损失和振幅约束损失。在TCAN的编码器阶段,使用 Res-MSR 模块自适应学习不同大小的图像特征;同时对训练数据集采用随机拼接处理策略和深度归一化处理策略,以防止数据集中原始特征的失真。仿真与光学实验重建结果表明,SST-holo 具有良好的泛化能力。未来的工作可以探索使用更少的计算资源提取全息图的特征,使用更多的 RGB-D 数据集来训练 SST-holo,以获得更好的性能,并尝试扩展 SST-holo,以生成物体连续深度的 4K 全息图。


论文信息:

Q. Fang, H. Zheng, X. Xia, J. Peng, T. Zhang, X. Lin, and Y. Yu, "Diffraction model-driven neural network with semi-supervised training strategy for real-world 3D holographic photography," Opt. Express 32 (2024).


技术详见:
https://doi.org/10.1364/OE.538649

*该技术分享所涉及文字及图片源于发表论文和网络公开素材,不做任何商业用途。

回顾与预告


上期回成像专题 | CardiacField:基于二维超声探头的心脏三维重建与心功能自动评估(Digital Health)欢迎点击查阅

下期预告:我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。
Contact: intelligent.optics.sharing@gmail.com


INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢,请点击“在看”和“点赞”,将有助于微信公众号平台对信息的定向统计及时推送,小编团队在此不胜感激,谢谢!!





END





IntelligentOptics
从光学理论到算法提升,以计算能力延展光学设计,追踪计算光学、成像、显示、VRAR等前沿资讯,抛砖引玉,欢迎拍砖及来稿交流
 最新文章