成像专题 | 分层可分离的视频Transformer助力单曝光压缩成像 (ECCV)

文摘   科技   2024-08-05 14:07   美国  

分层可分离的视频Transformer助力单曝光压缩成像

Hierarchical Separable Video Transformer for Snapshot Compressive Imaging

本期导读


单曝光压缩成像(Snapshot Compressive Imaging, SCI)以较低的硬件成本实现对高速视频的压缩采集,随后利用优化算法或深度神经网络进行高质量重建。近年来,Transformer在各项视觉任务上取得了绝佳性能,也包括视频SCI重建任务。然而,先前Transformer模型主要得益于自注意(Self-Attention)机制的固有优势:long-range dependency和data dependency,忽视了视频SCI在空间维度和时间维度的信息偏斜(information skewness)问题,进而限制了其潜能。
鉴于此,来自西湖大学、浙江大学、上海交通大学的研究人员提出分层可分离的视频Transformer,简称为HiSViT,不仅兼顾Transformer的固有优势,而且引入一种新的归纳偏置(indutive bias):更多地注意空间而不是时间,能有效地解决视频SCI的信息偏斜问题。HiSViT在多个benchmark数据集取得最佳性能(图1)。该研究工作被计算机视觉领域顶会之一的ECCV 2024接收。


图1. 在(a)灰度和(b)彩色数据集上,HiSViT模型以可比较甚至更少的(c)参数量和复杂度取得SOTA重建性能。

技术背景

视频SCI重建致力于从单次曝光采集的灰度测量图像(single-shot oberserbation)中恢复出多个视频帧(video frames)。作为一个欠定逆问题,其退化主要源于spatial masking和temporal aliasing的混合作用。重建时,首先基于伪逆操作将采集的单个灰度图像初始化为多个高度退化的视频帧,然后设计优化算法或者神经网络模型对其进行修复(图2)。
    本质上,模型输入的视频帧源于同一张退化图像,它们完全丢失时间相关性。换句话说,可用于重建的信息线索集中在空间维度而不是时间维度,研究人员称之为信息偏斜(information skewness)。这与经典的去噪、去模糊等问题十分不同,因为在这些任务里,即使输入帧被高度退化,它们依然包含丰富的时空相关性。由此可见,视频SCI重建是一项具有挑战性的重建任务。先前工作忽略了视频SCI的信息偏斜问题,通常采用常规的自注意机制和3D卷积来构建模型,因此重建性能和计算效率往往受到限制。

图2. (a) 视频SCI技术原理; (b)视频SCI重建模型的输入帧丢失时间相关性。

技术路线

为了应对视频SCI的信息偏斜问题,该项工作对重建架构及基础组件进行了量身定制,其核心思想围绕“更多地注意空间而不是时间”。重建架构如图3所示,主要包括三个模块:逐帧特征提取模块,时空特征精炼模块,重建模块。鉴于输入帧无任何时间相关性,特征提取模块强调使用2D处理单元来避免时间维度上的交互,进而避免潜在的退化放大。这与先前工作通常采用3D处理单元十分不同。时空特征精炼模块由多个基础组件(3D处理单元)堆叠而成,旨在更多地注意空间的同时在建模长距离时空相关性。重建模块由2D处理单元构成,旨在从精炼特征和浅层特征中重建出最终修复的视频帧。鉴于时空特征精炼模块往往涉及大量密集计算,在其前后进行空间下上采样来节约计算成本。

图3. 所提出的视频SCI重建架构。


在时空特征精炼模块,基础组件便是所提出的HiSViT。如图4所示,HiSViT是一种分层可分离的Transformer,其核心思想在于:(1)在同一attention层,分离空间维度操作和时间维度操作;(2)沿着通道设置不同尺寸的空间感受野。前者极大地降低计算复杂度以及保持了固有的长距离建模能力(long-range modeling),同时引入一种新的归纳偏置:更对地注意空间维度而不是时间维度,后者实现了多尺度交互(multiscale interactions)


图4. 所提出的HiSViT架构示意。

论文信息:
  • Ping Wang, Yulun Zhang, Lishun Wang, Xin Yuan. "Hierarchical Separable Video Transformer for Snapshot Compressive Imaging." ECCV 2024.

技术详见:
https://arxiv.org/abs/2407.11946
开源代码详见:
https://github.com/pwangcs/HiSViT

*该技术分享所涉及文字及图片源于发表论文和网络公开素材经适当编辑,不做任何商业用途。

回顾与预告


上期回顾:显示专题 | 基于瞳孔掩膜的全息近眼显示多视点优化(OLT)欢迎点击查阅

下期预告:我们将不定期推荐学术领域具有代表性的计算显示和计算成像研究工作,同时穿插一些新型光学设计和VR/AR光机实现科普等的资讯分享,欢迎订阅关注,欢迎来稿交流。
Contact: intelligent.optics.sharing@gmail.com


INTELLIGENTOPTICSSHARING (I.O.S.) 运营以该领域的研究学者为主,非盈利非广告,希望能够结交共同兴趣方向的读者们,建立光学和计算机交叉学科领域内一个资讯分享交流的平台。如果喜欢,请点击“在看”和“点赞”,将有助于微信公众号平台对信息的定向统计及时推送,小编团队在此不胜感激,谢谢!!





END




IntelligentOptics
从光学理论到算法提升,以计算能力延展光学设计,追踪计算光学、成像、显示、VRAR等前沿资讯,抛砖引玉,欢迎拍砖及来稿交流
 最新文章