ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

创业 2024-09-27 08:23 北京

本文探索了RAW图像在高层视觉任务（如目标检测、语义分割）中的潜力。尽管RAW-to-RGB的ISP已取得显著进展，但RAW图像由于保留了丰富的光照信息和规律的噪声分布，在低光照和过曝光场景下具有优势。其主要挑战是缺乏大规模数据集和预训练模型，本文尝试结合RAW图像与sRGB预训练权重，提出了初步探索，指出未来该领域有待进一步研究和优化。

论文链接：
RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images
文章链接：
https://arxiv.org/abs/2408.14802
代码链接：
https://github.com/cuiziteng/ECCV_RAW_Adapter

一、前言

目前已有的工作中，探索RAW-to-RGB的ISP，不管是传统ISP还是DL-based的ISP，都已经取得了不错的效果和泛化性能，也是各大手机厂商竞争的火热卖点，但是基于RAW图像的high-level vision tasks还探索寥寥，RAW图像优势在其尚未经过ISP的丰富的光照储存信息(higher bit depth)，更广的色域范围(wider gamut range)，规律的noise distribution(成像每一个阶段的噪声都有可解释性)，让RAW在低光照场景和过曝光等不良光照场景存在着很大的优势。

然而针对high-level vision tasks (如目标检测，语义分割的任务)其一大劣势在于目前并没有针对RAW的大规模数据集和pre-train models，因此如何更好的把RAW图像和sRGB pretrain权重结合成了一个有待探索的topic，本文针对这个motivation给出了初步探索，后续提升还需大家一起多多努力～

基于RAW图像的视觉任务，黄线是没有利用sRGB预训练权重，紫色和蓝色的线是利用sRGB预训练权重，可以看出sRGB预训练权重在基于RAW的视觉task中有着很重要的作用

二、相关工作

(a).ISP基本结构 (b). ISP与high-level分离 (c).串联链接RAW与ISP训练 (d). RAW-Adapter

ISP是相机内部很复杂专业的流程，对这方面感兴趣的同学，建议阅读Micheal s Brown发在ECCV 2016的那篇经典之作[A Software Platform for Manipulating the Camera Imaging Pipeline] (ps. 这篇论文对小白收获价值很大，堪称入门必读，本人也是读了好几遍，而且基本每次写paper都会引用这篇工作，Brown教授也是我在这个领域非常喜欢与欣赏的一位学者)，或者他在ICCV 2023上的tutorial，了解一下相机ISP的相关步骤和背景知识(Demosacing, Denosing, WB, CCM, gamma ...)。

ISP本身的设计和design是为了满足人眼视觉更好的感知，传统的ISP算法每一个step往往都需要prior knowledge，比如白平衡前需要估计光源。每一家厂商的ISP也都有自己的特点，比如Sony和华为他们的自家ISP流程的CCM以及LUT参数肯定不同，同时每家的ISP基本都是黑盒，我们很难获取里面具体的step。ISP针对人眼设计的特性也导致了，这些ISP算法并不一定能很好的满足machine vision，尤其是在对于一些下游计算机视觉任务检测，分割的时候，针对人眼设计的ISP并不一定能够符合mAP，IOU等指标，这一表现在低光场景尤为明显。

这也就派生了一系列的工作，machine vision oriented ISP，设计ISP模型来更好的满足机器视觉性能，如检测分割等task，这一系列工作在普林斯顿的Felix Heide那边探索的比较多，他们的工作旨在于把一些ISP参数变得可以学习(Hardware-in the loop)，或者通过一个UNet类型的网络(Dirty Pixel)，还有一些其他组的工作比如通过NAS来选择合适的ISP参数，或者设计更新的网络来当成encoder，在这里就不一一论述了，感兴趣的可以看一下我们paper的related works部分。这里特别一提的是，利用网络搭建一个pre-encoder的工作，会大大加重网络负担，尤其在高分辨率输入场景尤为明显。

然而，此前的工作都缺乏对于sRGB pretain权重和RAW视觉任务的关系，在sRGB pretain权重愈发重要的今天，我们没有足够量的RAW data来做大规模预训练，因此如何利用好sRGB Pre-train权重的优势来设计轻量Adapters给RAW图像，成为了研究的关键。

三、模型结构

我们的方法设计了两组Adapters，一组是用来把RAW图像处理到网络输入阶段的Input-level Adapter, 另一组是链接ISP阶段特征和后续网络的Model-level Adapter，更多细节请见原文。

整体的模型结构中，Input-level Adapter这里大致包括四个步骤: (1). 预处理 + denoise/ gain/ sharpen (2). 白平衡 (3). CCM矩阵以及(4) Implicit 3D LUT。每一个步骤的初心目的就是把ISP参数变成可学习的，动态参与到模型的反向传播过程，同时让这些ISP参数可以自适应的配合到不同图像&光照&数据集。

Model-level Adapter这里则是更多借鉴了ViT-Adapter的设计，希望能把ISP阶段的中间特征作为Guidance融合的后续的网络backbone中。

RAW-Adapter模型结构

可以动态学习的Denoise Kernel以及白平衡参数

其中 Input-level Adapter的设计中，我们采用了利用Attention模块的方式来直接估计ISP参数，比如去噪模糊核，白平衡Parameters以及相机CCM矩阵，这部分是直接用我之前[BMVC 2022 IAT] 的attention动态学习参数来设计的 (ps, 终于让IAT这篇ECCV 2022的拒稿，登上了ECCV 2024的舞台)，动态学习ISP参数的优势，在于可以更具具体的图像，具体的光照场景，来更好的自适应调节参数。更多的模型细节可以参考我们原文。

四、实验设置

实验在检测分割任务中做了测试，包括检测的PASCAL RAW数据集，LOD数据集，分割的合成数据集ADE20K-RAW以及真实数据集iPhone XSmax。证明了我们方法相比于ISP算法和此前joint-training方法的有效性。其中我们在PASCAL RAW/ ADE20K-RAW上额外合成了低光照和过曝光的场景情况，发现RAW在异常光照下存在着独到优势，更多细节结论请见原文。

我们把PASCAL RAW数据集生成了三种光照情况，来更好的研究RAW图像对光照泛化性的优势

ADE20K-RAW表现

LOD以及PASCAL RAW表现

五、未来方向

我个人对RAW-Adapter的定义还是一个初步的起步工作，相比已经卷成一片红海的RGB，未来基于RAW图像的high-level视觉任务还有很大的空间可以做，也是一个广大硕博们能发论文的宝藏方向。希望RAW-Adapter能够成为这个方向大家的垫脚石，让广大研究者在这个方向一步步探索走下去，在未来的direction上，一些个人见解是此前基于RGB的探索都可以结合RAW试一下，比如自监督，预训练，DA ......

当然RAW-Adapter本身也存在着一定缺陷，比如kernel-based densoing过于简单，在一些复杂噪声情况也许无效，比如impilcit 3D LUT并不是image-adaptive的，这部分改成image-adaptive也许会更好，还有model-level adapter肯定还有更好的特征融合方式，每个部分探索空间都很大，希望与大家共勉，一起进步。

来源：【知乎】https://zhuanlan.zhihu.com/p/717363887

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514143&idx=1&sn=b99d75b9336a68a2a196df7ffba48c6a

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉