显示专题 | 基于视觉曼巴的高质量计算全息(OLEN)

文摘   科技   2024-12-10 13:24   上海  
基于视觉曼巴的高质量计算全息
High-Quality Computer-Generated Holography Based on Vision Mamba

本期导读

深度学习,特别是基于模型驱动的无监督网络,为高效生成计算机全息图提供了新的方法。目前模型驱动的全息图生成模型主要是基于卷积神经网络(CNN)构建的,由于其感受野受限,难以实现高质量的全息图重建。尽管视觉变压器(ViT)在处理远距离视觉信息方面表现出色,但其计算量巨大,难以满足实时显示的要求。
鉴于此,来自江苏大学、上海理工大学及湖南大学的研究人员合作提出了一种轻量级模型CVMNet,集成了卷积层的局部特征提取能力和状态空间模型捕获远程依赖关系的能力,以实现全息图质量的提升。同时,对视觉曼巴(ViM)采用并行计算处理特征通道,有效地减少了模型参量。最终该方法可以在16ms内生成1080P的高清晰度全息图,并通过彩色全息实验证实了该方法的可靠性和有效性。该研究成果发表在国际著名学术期刊《Optics and Lasers in Engineering》。

技术路线

技术实现上,该研究所提出的全息图生成架构如图1所示,对于输入目标振幅A,由第一个CVMNet预测出相位,并与其构成复值波场U_0,其后用角谱法将复值波场传播到空间光调制器(SLM)平面。在SLM平面上,第二个CVMNet学习复值波场U1,将其编码为纯相位全息图(POH)。之后POH反向传播到成像平面,得到复值波场U2。为了简化网络内部处理,将复值波场U1分解为振幅和相位,并沿着通道维度进行拼接,形成2通道张量,作为第二个CVMNet的输入。通过计算全息图的数值重建与目标振幅之间的一致性损失,实现网络的无监督训练。值得注意的是,所采用的两种角谱方法相互共轭,利用带限角谱法可以进行更精确的衍射计算。


图1. CVMNet的全息图生成架构。


CVMNet的结构如图2所示,其沿用了传统的U型结构(编码器、解码器和跳跃连接),共有4层,前两层通过卷积模块提取浅层特征,后两层则结合并行ViM层(PVM)捕获深层特征。该设计有效地融合了Mamba模型的优势和UNet架构的高效性,在保证高质量生成全息图的同时大幅减少模型的参量。模型的通道数设置为[16, 32, 48, 64],以确保网络能够在各种尺度上捕获精细的图像细节和更广泛的上下文信息。

图2.  CVMNet结构。


研究中将CVMNet算法与非迭代法DPAC、端到端的神经网络算法Holo-encoder、HoloNet进行比较(图3),图片上的细节是3倍放大效果。DPAC算法计算速度快,但重建图像质量有限,图像存在较多伪影,导致峰值信噪比(PSNR)和结构相似度(SSIM)值偏低。Holo-encoder只使用一个网络,极大提升了计算速度,但重构图像细节模糊,质量有待提升。在HoloNet中,重建图像相比Holo-encoder质量更好,但亮度偏低,影响观感。CVMNet达到了最好的重建图像质量,接近真实图像,且速度较快,生成1080P的全息图只要16 ms。

图3. 不同方法全息图数值重建的比较。

    光学重建结果如图4(a)所示,图中细节部分是3倍放大效果。DPAC法在光学重建中存在严重的散斑噪声,降低了图像对比度,细节较为模糊,存在大量伪影。Holo-encoder产生的图像细节模糊。虽然HoloNet通过减少散斑噪声提高了图像质量,但整体亮度偏低,光效较暗。与此形成鲜明对比的是,CVMNet在提供细节精确恢复和增强亮度的重建方面表现出色,更符合人眼对图像质量的感受。泛化测试实验如图4(b)所示,猫头鹰的眼部高度还原了细节特征,轮廓清晰可见,散斑噪声非常少,手写数字3的细节同样清晰。光学重建结果表明CVMNet模型泛化能力强,鲁棒性好。


图4. 光学重建实验结果:(a)不同方法光学重建结果比较;(b)泛化实验。

为了进一步验证该方法的有效性,进行了彩色全息的研究。研究中通过训练红、绿、蓝通道的单独网络生成相应的全息图,基于时分复用的实验系统实现了彩色全息的光学重建,如图5所示。可见在这些图像中,细节非常清晰,颜色也很明确。

图5. CVMNet的彩色光学重建结果。

技术小结:该研究将ViM引入计算全息领域,并与CNN结合,构建了用于快速生成高质量全息图的模型CVMNet。该模型集成了卷积层的局部特征提取能力和状态空间模型捕获远程依赖关系的能力,可在不同层次上有效提取图像细节特征,生成更精确的全息图;对ViM采用并行计算的方法,显著降低了计算负载。数值重建和光学实验表明,该方法产生的全息图具有更少的散斑噪声,更高的亮度和清晰度。该研究为计算全息图生成中的远程依赖建模提供了一种新颖的方法,在实时全息显示或商用VR/AR领域具有潜在的应用价值。


论文信息:

Lei Yang*, Shengyuan Xu, Chunzheng Yang, Chenliang Chang, Qichao Hou, Qiang Song, High-quality computer-generated holography based on Vision Mamba, Optics and Lasers in Engineering, 2025.


技术详见:
https://doi.org/10.1016/j.optlaseng.2024.108704

*该技术分享所涉及文字及图片源于发表论文和网络公开素材,不做任何商业用途。

回顾与预告


上期回顾:成像专题 | 复杂场景实时非视域成像(Nature Comp. Sci.)欢迎点击查阅

下期预告:我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。
Contact: intelligent.optics.sharing@gmail.com


INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢,请点击“在看”和“点赞”,将有助于微信公众号平台对信息的定向统计及时推送,小编团队在此不胜感激,谢谢!!





END





IntelligentOptics
从光学理论到算法提升,以计算能力延展光学设计,追踪计算光学、成像、显示、VRAR等前沿资讯,抛砖引玉,欢迎拍砖及来稿交流
 最新文章