ECCV 2024 Oral | 袁鑫实验室提出隐式扩散先验增强的深度展开网络

学术   2024-09-07 09:00   浙江  

导言

ECCV 2024 收录论文

单曝光光谱压缩成像系统可以通过灰度相机实现高光谱场景的快速低带宽采集,因而有望成为下一代光谱成像范式。为了进一步推动单曝光光谱压缩成像系统的实际应用,高性能的重建算法一直是需要探索的重要方向。

单曝光光谱压缩成像系统如图1(a)所示,通过掩膜(mask)和色散器件(disperser)将三维光谱信号调制和色散后使用灰度相机采集二维的压缩测量。重建旨在从二维压缩测量中恢复三维空间光谱图像。现有的最先进方法大多基于深度展开网络(DUN)结构,但存在固有的性能瓶颈。
原因如下:
1)网络需要直接处理严重退化的压缩测量;2)基于回归损失的重建模难以恢复图像的细节。
在本文中,我们引入了一种生成式的隐式扩散模型,通过在生成的无退化的知识先验来增强基于回归的深度展开网络。此外,本文提出了一种Trident Transformer,该Transformer通过提取先验知识、空间和光谱特征之间的相关性,将知识先验集成到深度展开去噪器中,从而指导重建并补偿光谱图像细节。这是首个将物理驱动的深度展开网络与生成式的隐式扩散模型相结合的方法。
在合成数据集和真实数据集上的实验表明了此方法在重建质量和计算效率方面的优越性。

图1. (a)单曝光光谱压缩成像系统成像过程。(b)梯度校正广义交替投影(GC-GAP)。(c)隐空间编码器。(d)去噪器。(e)深度展开网络。压缩测量y和掩码A通过一个N级的深度展开网络,其中每级由一个GC-GAP 和一个去噪器组成。
该论文被计算机视觉顶级会议ECCV 2024录用,并入选口头报告(Oral,比例约为2.3%)论文由袁鑫实验室博士生吴宗亮担任第一作者,袁鑫教授为通讯作者,西湖大学为通讯单位。

ECCV会议是世界顶级的计算机视觉三大顶级会议之一,录取论文代表了计算机视觉领域2024年最高的学术水平。2024年会议接收有效投稿8585篇,论文录取率为27.9%,其中口头报告比例约为2.3%。会议定于2024年9月29日至10月4日在意大利米兰举行。

本文的贡献包括:


1)提出了一种用于单曝光光谱压缩成像重建的隐式扩散先验增强深度展开网络,其中无退化的图像先验由隐式扩散模型生成,以实现高质量的高光谱重建。本方法不需要增加额外的数据或训练时间。


2)设计了一个称为Trident Transformer(TT) 的三合一Transformer结构来提取先验知识、空间和光谱特征之间的相关性。在 TT 中,受Pansharpening技术的启发,引入了一种非对称跨尺度多头自注意力 (ACS-MHSA) 机制,旨在高效地融合空间光谱特征。

算法框架

隐式扩散先验增强的深度展开网络如图1(e)所示,在推理阶段,压缩测量y和掩码A通过一个N级DUN,其中每级DUN由一个梯度校正广义交替投影(GC-GAP)和一个去噪器组成。去噪器中的每个的Trident Transformer(图2)都由隐式扩散模型(LDM)辅助。


在模型训练阶段,隐式扩散先验将由一个两阶段的训练方式融入DUN中。在第一阶段中,网络同时输入无退化图像和压缩测量,将无退化先验输入DUN中。在第二阶段,扩散模型从噪声生成无退化先验输入DUN。

DUN中的Trident Transformer包含先验知识、空间和光谱特征三个分支,分别提取各自特征并与其他特征高效聚合,实现先验知识对空间、光谱信息的补偿。

图2. (a)Trident Transformer。(b)-(d)是其中的子模块。

实验结果

图3. 合成数据重建结果比较。每个单元格中上下两部分分别表示常用的图像质量评价指标峰值信噪比(PSNR)和结构相似度(SSIM)。

图4. 真实世界场景重建结果

如图3、图4所示,本文在合成数据集和真实数据集上的实验表明了此方法在重建质量方面的优越性。

总结

在本文中,我们介绍了一种新的光谱重建网络,它利用隐式扩散模型的先验知识和基于物理模型的深度展开网络进行光谱重建,实现了模拟数据和真实数据上的优越性能。


论文题目:Latent Diffusion Prior Enhanced Deep Unfolding for Snapshot Spectral Compressive Imaging


代码地址:https://github.com/Zongliang-Wu/LADE-DUN


作者:吴宗亮,鲁瑞颖,付莹,袁鑫*




实验室介绍

感知与计算成像实验室(SCI Lab)致力于计算成像,包含成像系统的研发和基于机器学习的算法研究。本课题组负责人袁鑫博士,2021年入选国家级人才项目,浙江省高层次人才,2022年浙江省杰青,2020-2023年连续入选斯坦福大学世界前2%科学家,香港理工大学博士(2012年),美国杜克大学博士后(2012-2015年),2021年10月全职加入西湖大学,组建感知与计算成像实验室,30多项国际专利的发明者。


袁鑫博士,2015-2021年担任美国贝尔实验室视频分析与编码首席研究员。研究领域涵盖计算成像、机器学习、光学、计算机视觉、图像处理、信号处理等。发表国际顶级期刊论文(如Nature Communications, P-IEEE, IEEE SPM, TPAMI,TIP, TSP, Cell Patterns, Optica)和顶级会议(如CVPR, ICCV, ECCV, ICML, NeurIPS)论文超过200篇,谷歌引用超过10000次,H指数55,担任多家期刊编委。是国际上单曝光压缩成像(Snapshot Compressive Imaging)的主要推动者。


欢迎有计算机、光学、人工智能、图像处理等背景的有志者加入团队(助理研究员、博士后、博士生、访问学生等)。

 来 源  | 袁鑫实验室

 撰 稿  | 吴宗亮

 编 辑  | 冯晨希

 校 对  | 彭   玥

 审 核  | 苏凌菲

 

西湖大学工学院面向国家战略性新兴产业发展重大需求,着力建设交叉学科与新兴学科为特色的工程技术学科群,努力建成国家重大科学技术研究和拔尖创新人才培养的重要基地。工学院以国际高端人才为学科带头人构建科研团队,分阶段、分领域打造一流人才队伍。


工学院目前重点建设七大研究领域 (Programs)——人工智能与数据科学、生物医学工程、化学与生物工程、电子信息科学与技术、材料科学与工程、机械科学与工程、可持续发展与环境工程。围绕七大领域,工学院已建成一批高水平实验室和研究中心,其中已获批成立全省3D微纳加工和表征研究重点实验室、全省智能低碳生物合成重点实验室,培育建设浙江省海岸带环境与资源研究重点实验室,建立微纳光电系统集成浙江省工程研究中心。

扫描二维码 | 关注我们

西湖大学工学院

School of Engineering

Westlake University


西湖大学工学院SOE
西湖大学工学院致力于面向国家战略性新型产业发展重大需求的科技创新和人才培养,建立交叉学科与新兴学科为特色的应用科学、工程技术学科群,建成国家重大科学技术研究和拔尖创新人才培养的重要基地。
 最新文章