ICLR 惊现满分论文，四个 10 分！ControlNet 作者新作，Github 5.8k 颗星

科技 2024-12-02 13:00 广东

来源：机器之心

四个 10 分！罕见的一幕出现了。

您正在收看的，不是中国梦之队的跳水比赛，而是 ICLR 2025 的评审现场。

虽说满分论文不是前无古人，后无来者，但放在平均分才 4.76 的 ICLR，怎么不算是相当炸裂的存在呢。

https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/

这篇征服了列位审稿人的论文，正是 ControlNet 作者张吕敏的新作 IC-Light。我们很少看到一篇论文，能够让四位审稿人给出高度一致的「Rating: 10: strong accept, should be highlighted at the conference」。

早在向 ICLR 投稿之前，IC-Light 就已经在 Github 上开源半年了，收获了 5.8k 的星标，足见其效果之优秀。

最初版本是基于 SD 1.5 和 SDXL 实现的，而就在前几天，团队又推出了 V2 版本，适配了 Flux，效果也更上一层楼。

感兴趣的朋友们，可以直接试玩。

Github 项目：https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
V2 版本：https://github.com/lllyasviel/IC-Light/discussions/98
试玩链接：https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Light 是一个基于扩散模型的照明编辑模型，可以通过文本精准控制图像的光照效果。

也就是说，要放在 PS 里打开蒙版、打开 alpha 通道，调试明暗分离才能搞定的光影效果，用上 IC-Light，就变成了「动动嘴皮子的事」。

输入 prompt，要让光从窗户里打进来，于是就能看到阳光透过雨后的窗户，在人物侧脸打出柔和的轮廓光。

IC-Light 不仅精准地还原了光线的方向，还精准地呈现了光透过玻璃的漫射效果。

对霓虹灯这样的人工光源，IC-Light 的效果同样出色。

根据提示词，原本在教室里的场景立马爆改赛博朋克风格：霓虹灯的红蓝双色打在人物身上，营造出深夜都市特有的科技感和未来感。

模型不仅准确还原了霓虹灯的色彩渗透效果，还保持了人物的一致性。

IC-Light 还支持上传背景图片，来改变原图的光照。

而说到 ControlNet，大家应该都不陌生，它可是解决了 AI 绘画界一个老大难问题。

Github 项目：https://github.com/lllyasviel/ControlNet

之前，Stable Diffusion 最让人头疼的就是无法精确控制图像细节。不管是构图、动作、面部特征还是空间关系，即便提示词已经做了很详细的规定，但 SD 生成的结果，依然要坚持 AI 独特的想法。

但 ControlNet 的出现就好像是给 SD 装上了「方向盘」，许多商业化的工作流也因此催生。

学术应用两开花，ControlNet 在 ICCV 2023 摘下了马尔奖（最佳论文奖）的桂冠。

虽然很多业内人士表示在卷得飞起的图片生成领域，真正的突破越来越难。但张吕敏似乎总能另辟蹊径，每次出手都能精准命中用户需求。这一次也不例外。

在现实世界中，光照和物体表面的材质是紧密关联的。比如你看到一个物体时，很难分清楚是光线还是材质，让物体呈现出是我们眼中样子。因此，在让 AI 编辑光线时，也很难做到不改变物体本身的材质。

以前的研究想通过构建特定的数据集来解决这个问题，但收效甚微。而 IC-Light 的作者发现用 AI 合成生成的数据加上一些人工处理，能达到不错的效果。这个发现对整个研究领域都有启发意义。

ICLR 2025 刚放榜之时，IC-Light 就凭借「10-10-8-8」稳坐最高分论文的宝座。

审稿人们在审稿意见里也不乏赞美之词：

「这是一篇精彩论文的典范！」
「我认为所提出的方法和由此产生的工具将立即对许多用户有用！」

在 rebuttal 结束，补了一些参考文献和实验之后。那两位给 8 分的审稿人也欣然改成了满分。

下面，就让我们一起来看看满分论文具体都写了什么。

研究细节

论文标题：Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport
论文链接：https://openreview.net/pdf?id=u1cQYxRI1H

在这篇论文中，研究者根据光传输独立性的物理原理，提出了在训练过程中强加一致光（IC-Light）传输的方法，其物理原理是：不同光照条件下物体外观的线性混合与混合光照下的外观一致。

如图 2 所示，研究者利用多种可用数据源对照明效果的分布进行建模：任意图像、3D 数据和灯光舞台图像。这些分布可以捕捉现实世界中各种复杂的照明场景，背光、边缘光、辉光等。为简单起见，此处将所有数据处理为通用格式。

但学习大规模、复杂和嘈杂的数据是一项挑战。如果没有合适的正则化和约束条件，模型很容易退化为与预期光照编辑不符的随机行为。研究者给出的解决方案是在训练过程中植入一致光（IC-Light）传输。

通过施加这种一致性，研究者引入了一个强大的、以物理为基础的约束条件，确保模型只修改图像的光照方面，同时保留反照率和精细图像细节等其他固有属性。这种方法可以在 1000 多万个不同样本上进行稳定、可扩展的训练，样本包括来自光照舞台的真实照片、渲染图像以及带有合成光照增强的野外图像。本文提出的方法能够提高光照编辑的精度，降低不确定性，减少伪影，同时不改变基本的外观细节。

总体来说，这篇论文的贡献主要包括：

(1) 提出了 IC-Light，一种通过施加一致光传输来扩展基于扩散的光照编辑模型训练的方法，确保在保留内在图像细节的同时进行精确的光照修改；

(2) 提供了预训练的光照编辑模型，以促进不同领域内容创建和处理中的光照编辑应用；

(3) 通过大量实验验证了这种方法的可扩展性和性能，显示了它在处理各种光照条件时与其他方法的不同之处；

(4) 介绍了其他应用，如法线贴图生成和艺术照明处理，进一步展示了该方法在真实世界、实际场景中的多功能性和鲁棒性。

实验结果

在实验中，研究者验证了扩大训练规模和数据源多样化可以增强模型的鲁棒性，并能提高各种与光照相关的下游任务的性能。

消融实验证明，在训练过程中应用 IC-Light 方法可以提高光照编辑的准确性，从而保留反照率和图像细节等内在属性。

此外，与在更小或更结构化的数据集上训练的其他模型相比，本文方法适用于更广泛的光照分布，如边缘照明、背光照明、魔法发光、日落光晕等。

研究者还展示了该方法处理更多野外照明场景的能力，包括艺术照明和合成照明效果。此外还探讨了生成法线贴图等更多应用，并讨论了这种方法与典型主流几何估计模型之间的差异。

消融实验

研究者首先恢复了训练中的模型，但删除了野外图像增强数据。如图 4 所示，移除野外数据严重影响了模型的泛化能力，尤其是对于肖像等复杂图像。例如，训练数据中不存在的肖像中的帽子经常会以不正确的颜色呈现（如从黄色变为黑色）。

研究者还尝试了移除光传输一致性。没有了这一限制，模型生成一致光照和保留反照率（反射颜色）等固有属性的能力明显下降。例如，一些图像中的红色和蓝色差异消失了，输出结果中也出现了明显的色彩饱和度问题。

而完整的方法结合了多种数据源，并加强了光传输的一致性，产生了一个能够在各种情况下通用的均衡模型。它还保留了细粒度图像细节和反照率等固有属性，同时减少了输出图像的误差。

其他应用

如图 5 所示，研究者还展示了其他应用，例如利用背景条件进行光照协调。通过对背景条件的额外通道进行训练，本文的模型可以完全根据背景图像生成照明，而无需依赖环境映射。此外，模型还支持不同的基础模型，比如 SD1.5、SDXL 和 Flux，这些模型的功能在生成的结果中都有所体现。

定量评估

在定量评估中，研究者使用了峰值信噪比（PSNR）、结构相似性指数（SSIM）和学习感知图像补丁相似性（LPIPS）等指标。并从数据集中提取了 50000 个未见过的 3D 渲染数据样本子集进行评估，确保模型在训练过程中没有遇到过这些样本。

测试的方法有 SwitchLight、DiLightNet，以及本文方法不包含某些组件（例如，不包含光传输一致性、不包含增强数据、不包含三维数据和不包含灯光舞台数据）的变体。

如表 1 所示，就 LPIPS 而言，本文方法优于其他方法，表明其具有卓越的感知质量。仅在三维数据上训练的模型获得了最高的 PSNR，这可能是由于对渲染数据的评估偏差所致（因为本次测试仅使用了三维渲染数据）。结合多种数据源的完整方法在感知质量和性能之间取得了平衡。

视觉对比

研究者还与之前的方法进行了直观比较。如图 6 所示，与 Relightful Harmonization 相比，由于训练数据集更大更多样化，本文模型对阴影的鲁棒性更高。SwitchLight 和本文模型产生了具有竞争力的重新照明结果。这种方法的法线贴图质量更细致一些，这要归功于从多个表象中合并和推导阴影的方法。此外，与 GeoWizard 和 DSINE 相比，该模型生成的人类法线贴图质量更高。

更多研究细节，可参考原论文。

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群！

大家好，群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享，主要方向有：图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注：研究方向+学校/公司+昵称（如图像分类+上交+小明）
👆 长按识别，邀请您进群！

深度学习技术前沿

本公众号专注于深度学习领域的前沿技术分享和学术交流。推送有关于机器学习、深度学习、强化学习、计算机视觉、自然语言处理等领域干货文章，致力于在第一时间内汇集和发布最新人工智能技术和前沿资讯。

最新文章

院士领衔，武汉大学成立人工智能学院！

高中生手撕2.5万行代码，火爆全网！

毕业即失业？美国顶尖高校博士直呼太卷。。。

斯坦福李飞飞：AI将取代人类？

手握14篇CNS! 他是施一公最低调的弟子

全球五大巨头GPU总量曝光！2025年H100或超过1240万块

又倒下一家车企，极越“暴雷”了！

3名高中生，重新证明百年数学定理

大模型创业太累，又一位大牛逃回大厂

吴恩达教授最新作品开源，支持一键调用大模型！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰。。。。

2025 IEEE Fellow名单正式公布！

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临

美国莱斯大学魏晨老师招收CV/机器学习方向全奖博士生

谢赛宁：反直觉？训练扩散模型原来这么简单

2位享有国际影响力的顶尖学者，加盟985大学

阿卜杜拉国王科技大学招博后- 年薪50w+（免税）

涨点神器！100个即插即用注意力模块

喜提 TPAMI 顶刊！

项目爆火，立刻撤退！谷歌大模型核心团队被爆集体离职。。。。

超过清华！985高校，一年22亿！

LLM高手！大佬开源学习笔记

ICLR 惊现满分论文，四个 10 分！ControlNet 作者新作，Github 5.8k 颗星

名单确定！新一轮“双一流”，突围！

27岁应届博士生，毕业即任上海交大博导！

突破次元壁！GenXD：拿捏真实感3D、4D动态场景

中国生成式AI大会，涵盖大模型、AI Infra、端侧AI、视频生成和具身智能等方向

AI造芯Nature论文遭围攻，Jeff Dean怒怼：拒绝学术抹黑！

中国科学院院士，加盟清华大学！

腾讯元宝2.0：鹅厂全家桶来啦！

12万人面临降薪！国际巨头内部大动荡。。。

RTX 4090可运行，已完全开源，史上最快视频生成模型问世！

一位阿里P9的年薪和家庭资产

黄仁勋与沈向洋院士对谈GPU算力、机器人和爱情

AI顶会AAAI收了一篇论文：没算法没实验，全靠idea思路好...

打破纪录！中国科学家让薛定谔的猫活了23分钟

硅谷最神秘的「黑手党」纷纷出走创业，融资近百亿！足以改变整个AI格局的革命

CV大神，MIT何恺明教授最新课程资料！

六院院士！又一顶尖学者归国，全职加盟清华大学

Scaling Law或将终结？哈佛MIT预警：低精度量化已无路可走。。。

国际巨头，AMD宣布全球裁员4%！

大模型推理加速技术的学习路线是什么?

吴恩达：大模型的下一个热门方向

3名高中生杀出重围，论文已被顶会 NeurIPS 2024录用

香港城市大学招机器学习 /大语言模型方向全奖博士

教授含泪惜别“双一流”高校：教学，影响了我原创性科研成果的产出

谷歌2024博士奖学金名单揭晓！清华姚班大神、KAN一作大佬入选

被美国“制裁”的中国大学名单。。。

美国司法部勒令谷歌出售 Chrome

耽误业界好多年？ Karpathy：现在回想，真的后悔极了。。。。

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉