本文探索了RAW图像在高层视觉任务(如目标检测、语义分割)中的潜力。尽管RAW-to-RGB的ISP已取得显著进展,但RAW图像由于保留了丰富的光照信息和规律的噪声分布,在低光照和过曝光场景下具有优势。其主要挑战是缺乏大规模数据集和预训练模型,本文尝试结合RAW图像与sRGB预训练权重,提出了初步探索,指出未来该领域有待进一步研究和优化。
本文探索了RAW图像在高层视觉任务(如目标检测、语义分割)中的潜力。尽管RAW-to-RGB的ISP已取得显著进展,但RAW图像由于保留了丰富的光照信息和规律的噪声分布,在低光照和过曝光场景下具有优势。其主要挑战是缺乏大规模数据集和预训练模型,本文尝试结合RAW图像与sRGB预训练权重,提出了初步探索,指出未来该领域有待进一步研究和优化。
论文链接:
RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images
文章链接:
https://arxiv.org/abs/2408.14802
代码链接:
https://github.com/cuiziteng/ECCV_RAW_Adapter
目前已有的工作中,探索RAW-to-RGB的ISP,不管是传统ISP还是DL-based的ISP,都已经取得了不错的效果和泛化性能,也是各大手机厂商竞争的火热卖点,但是基于RAW图像的high-level vision tasks还探索寥寥,RAW图像优势在其尚未经过ISP的丰富的光照储存信息(higher bit depth),更广的色域范围(wider gamut range),规律的noise distribution(成像每一个阶段的噪声都有可解释性),让RAW在低光照场景和过曝光等不良光照场景存在着很大的优势。
基于RAW图像的视觉任务,黄线是没有利用sRGB预训练权重,紫色和蓝色的线是利用sRGB预训练权重,可以看出sRGB预训练权重在基于RAW的视觉task中有着很重要的作用
(a).ISP基本结构 (b). ISP与high-level分离 (c).串联链接RAW与ISP训练 (d). RAW-Adapter
ISP是相机内部很复杂专业的流程,对这方面感兴趣的同学,建议阅读Micheal s Brown发在ECCV 2016的那篇经典之作[A Software Platform for Manipulating the Camera Imaging Pipeline] (ps. 这篇论文对小白收获价值很大,堪称入门必读,本人也是读了好几遍,而且基本每次写paper都会引用这篇工作,Brown教授也是我在这个领域非常喜欢与欣赏的一位学者),或者他在ICCV 2023上的tutorial,了解一下相机ISP的相关步骤和背景知识(Demosacing, Denosing, WB, CCM, gamma ...)。
ISP本身的设计和design是为了满足人眼视觉更好的感知,传统的ISP算法每一个step往往都需要prior knowledge,比如白平衡前需要估计光源。每一家厂商的ISP也都有自己的特点,比如Sony和华为他们的自家ISP流程的CCM以及LUT参数肯定不同,同时每家的ISP基本都是黑盒,我们很难获取里面具体的step。ISP针对人眼设计的特性也导致了,这些ISP算法并不一定能很好的满足machine vision,尤其是在对于一些下游计算机视觉任务检测,分割的时候,针对人眼设计的ISP并不一定能够符合mAP,IOU等指标,这一表现在低光场景尤为明显。
这也就派生了一系列的工作,machine vision oriented ISP,设计ISP模型来更好的满足机器视觉性能,如检测分割等task,这一系列工作在普林斯顿的Felix Heide那边探索的比较多,他们的工作旨在于把一些ISP参数变得可以学习(Hardware-in the loop),或者通过一个UNet类型的网络(Dirty Pixel),还有一些其他组的工作比如通过NAS来选择合适的ISP参数,或者设计更新的网络来当成encoder,在这里就不一一论述了,感兴趣的可以看一下我们paper的related works部分。这里特别一提的是,利用网络搭建一个pre-encoder的工作,会大大加重网络负担,尤其在高分辨率输入场景尤为明显。
然而,此前的工作都缺乏对于sRGB pretain权重和RAW视觉任务的关系,在sRGB pretain权重愈发重要的今天,我们没有足够量的RAW data来做大规模预训练,因此如何利用好sRGB Pre-train权重的优势来设计轻量Adapters给RAW图像,成为了研究的关键。
三、模型结构
我们的方法设计了两组Adapters,一组是用来把RAW图像处理到网络输入阶段的Input-level Adapter, 另一组是链接ISP阶段特征和后续网络的Model-level Adapter,更多细节请见原文。
整体的模型结构中,Input-level Adapter这里大致包括四个步骤: (1). 预处理 + denoise/ gain/ sharpen (2). 白平衡 (3). CCM矩阵以及(4) Implicit 3D LUT。每一个步骤的初心目的就是把ISP参数变成可学习的,动态参与到模型的反向传播过程,同时让这些ISP参数可以自适应的配合到不同图像&光照&数据集。
RAW-Adapter模型结构
可以动态学习的Denoise Kernel以及白平衡参数
四、实验设置
五、未来方向
我个人对RAW-Adapter的定义还是一个初步的起步工作,相比已经卷成一片红海的RGB,未来基于RAW图像的high-level视觉任务还有很大的空间可以做,也是一个广大硕博们能发论文的宝藏方向。希望RAW-Adapter能够成为这个方向大家的垫脚石,让广大研究者在这个方向一步步探索走下去,在未来的direction上,一些个人见解是此前基于RGB的探索都可以结合RAW试一下,比如自监督,预训练,DA ......
当然RAW-Adapter本身也存在着一定缺陷,比如kernel-based densoing过于简单,在一些复杂噪声情况也许无效,比如impilcit 3D LUT并不是image-adaptive的,这部分改成image-adaptive也许会更好,还有model-level adapter肯定还有更好的特征融合方式,每个部分探索空间都很大,希望与大家共勉,一起进步。
来源:【知乎】https://zhuanlan.zhihu.com/p/717363887
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。