ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

科技 2024-12-02 21:50 广东

SmartFlowAI

点击上方蓝字关注我们

本文转载自机器之心，原作者：佳琪、蛋酱
全文约 2400 字，预计阅读时间 6 分钟

四个 10 分！罕见的一幕出现了。

您正在收看的，不是中国梦之队的跳水比赛，而是 ICLR 2025 的评审现场。

虽说满分论文不是前无古人，后无来者，但放在平均分才 4.76 的 ICLR，怎么不算是相当炸裂的存在呢。

https://papercopilot.com/statistics/iclr-statistics/iclr-2025-statistics/

这篇征服了列位审稿人的论文，正是 ControlNet 作者张吕敏的新作 IC-Light。我们很少看到一篇论文，能够让四位审稿人给出高度一致的「Rating: 10: strong accept, should be highlighted at the conference」。

早在向 ICLR 投稿之前，IC-Light 就已经在 Github 上开源半年了，收获了 5.8k 的星标，足见其效果之优秀。

最初版本是基于 SD 1.5 和 SDXL 实现的，而就在前几天，团队又推出了 V2 版本，适配了 Flux，效果也更上一层楼。

感兴趣的朋友们，可以直接试玩。

Github 项目：https://github.com/lllyasviel/IC-Light?tab=readme-ov-file
V2 版本：https://github.com/lllyasviel/IC-Light/discussions/98
试玩链接：https://huggingface.co/spaces/lllyasviel/IC-Light

IC-Light 是一个基于扩散模型的照明编辑模型，可以通过文本精准控制图像的光照效果。

也就是说，要放在 PS 里打开蒙版、打开 alpha 通道，调试明暗分离才能搞定的光影效果，用上 IC-Light，就变成了「动动嘴皮子的事」。

输入 prompt，要让光从窗户里打进来，于是就能看到阳光透过雨后的窗户，在人物侧脸打出柔和的轮廓光。

IC-Light 不仅精准地还原了光线的方向，还精准地呈现了光透过玻璃的漫射效果。

对霓虹灯这样的人工光源，IC-Light 的效果同样出色。

根据提示词，原本在教室里的场景立马爆改赛博朋克风格：霓虹灯的红蓝双色打在人物身上，营造出深夜都市特有的科技感和未来感。

模型不仅准确还原了霓虹灯的色彩渗透效果，还保持了人物的一致性。

IC-Light 还支持上传背景图片，来改变原图的光照。

而说到 ControlNet，大家应该都不陌生，它可是解决了 AI 绘画界一个老大难问题。

Github 项目：https://github.com/lllyasviel/ControlNet

之前，Stable Diffusion 最让人头疼的就是无法精确控制图像细节。不管是构图、动作、面部特征还是空间关系，即便提示词已经做了很详细的规定，但 SD 生成的结果，依然要坚持 AI 独特的想法。

但 ControlNet 的出现就好像是给 SD 装上了「方向盘」，许多商业化的工作流也因此催生。

学术应用两开花，ControlNet 在 ICCV 2023 摘下了马尔奖（最佳论文奖）的桂冠。

虽然很多业内人士表示在卷得飞起的图片生成领域，真正的突破越来越难。但张吕敏似乎总能另辟蹊径，每次出手都能精准命中用户需求。这一次也不例外。

在现实世界中，光照和物体表面的材质是紧密关联的。比如你看到一个物体时，很难分清楚是光线还是材质，让物体呈现出是我们眼中样子。因此，在让 AI 编辑光线时，也很难做到不改变物体本身的材质。

以前的研究想通过构建特定的数据集来解决这个问题，但收效甚微。而 IC-Light 的作者发现用 AI 合成生成的数据加上一些人工处理，能达到不错的效果。这个发现对整个研究领域都有启发意义。

ICLR 2025 刚放榜之时，IC-Light 就凭借「10-10-8-8」稳坐最高分论文的宝座。

审稿人们在审稿意见里也不乏赞美之词：

「这是一篇精彩论文的典范！」
「我认为所提出的方法和由此产生的工具将立即对许多用户有用！」

在 rebuttal 结束，补了一些参考文献和实验之后。那两位给 8 分的审稿人也欣然改成了满分。

下面，就让我们一起来看看满分论文具体都写了什么。

研究细节

论文标题：Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport
论文链接：https://openreview.net/pdf?id=u1cQYxRI1H

在这篇论文中，研究者根据光传输独立性的物理原理，提出了在训练过程中强加一致光（IC-Light）传输的方法，其物理原理是：不同光照条件下物体外观的线性混合与混合光照下的外观一致。

如图 2 所示，研究者利用多种可用数据源对照明效果的分布进行建模：任意图像、3D 数据和灯光舞台图像。这些分布可以捕捉现实世界中各种复杂的照明场景，背光、边缘光、辉光等。为简单起见，此处将所有数据处理为通用格式。

但学习大规模、复杂和嘈杂的数据是一项挑战。如果没有合适的正则化和约束条件，模型很容易退化为与预期光照编辑不符的随机行为。研究者给出的解决方案是在训练过程中植入一致光（IC-Light）传输。

通过施加这种一致性，研究者引入了一个强大的、以物理为基础的约束条件，确保模型只修改图像的光照方面，同时保留反照率和精细图像细节等其他固有属性。这种方法可以在 1000 多万个不同样本上进行稳定、可扩展的训练，样本包括来自光照舞台的真实照片、渲染图像以及带有合成光照增强的野外图像。本文提出的方法能够提高光照编辑的精度，降低不确定性，减少伪影，同时不改变基本的外观细节。

总体来说，这篇论文的贡献主要包括：

(1) 提出了 IC-Light，一种通过施加一致光传输来扩展基于扩散的光照编辑模型训练的方法，确保在保留内在图像细节的同时进行精确的光照修改；

(2) 提供了预训练的光照编辑模型，以促进不同领域内容创建和处理中的光照编辑应用；

(3) 通过大量实验验证了这种方法的可扩展性和性能，显示了它在处理各种光照条件时与其他方法的不同之处；

(4) 介绍了其他应用，如法线贴图生成和艺术照明处理，进一步展示了该方法在真实世界、实际场景中的多功能性和鲁棒性。

实验结果

在实验中，研究者验证了扩大训练规模和数据源多样化可以增强模型的鲁棒性，并能提高各种与光照相关的下游任务的性能。

消融实验证明，在训练过程中应用 IC-Light 方法可以提高光照编辑的准确性，从而保留反照率和图像细节等内在属性。

此外，与在更小或更结构化的数据集上训练的其他模型相比，本文方法适用于更广泛的光照分布，如边缘照明、背光照明、魔法发光、日落光晕等。

研究者还展示了该方法处理更多野外照明场景的能力，包括艺术照明和合成照明效果。此外还探讨了生成法线贴图等更多应用，并讨论了这种方法与典型主流几何估计模型之间的差异。

消融实验

研究者首先恢复了训练中的模型，但删除了野外图像增强数据。如图 4 所示，移除野外数据严重影响了模型的泛化能力，尤其是对于肖像等复杂图像。例如，训练数据中不存在的肖像中的帽子经常会以不正确的颜色呈现（如从黄色变为黑色）。

研究者还尝试了移除光传输一致性。没有了这一限制，模型生成一致光照和保留反照率（反射颜色）等固有属性的能力明显下降。例如，一些图像中的红色和蓝色差异消失了，输出结果中也出现了明显的色彩饱和度问题。

而完整的方法结合了多种数据源，并加强了光传输的一致性，产生了一个能够在各种情况下通用的均衡模型。它还保留了细粒度图像细节和反照率等固有属性，同时减少了输出图像的误差。

其他应用

如图 5 所示，研究者还展示了其他应用，例如利用背景条件进行光照协调。通过对背景条件的额外通道进行训练，本文的模型可以完全根据背景图像生成照明，而无需依赖环境映射。此外，模型还支持不同的基础模型，比如 SD1.5、SDXL 和 Flux，这些模型的功能在生成的结果中都有所体现。

定量评估

在定量评估中，研究者使用了峰值信噪比（PSNR）、结构相似性指数（SSIM）和学习感知图像补丁相似性（LPIPS）等指标。并从数据集中提取了 50000 个未见过的 3D 渲染数据样本子集进行评估，确保模型在训练过程中没有遇到过这些样本。

测试的方法有 SwitchLight、DiLightNet，以及本文方法不包含某些组件（例如，不包含光传输一致性、不包含增强数据、不包含三维数据和不包含灯光舞台数据）的变体。

如表 1 所示，就 LPIPS 而言，本文方法优于其他方法，表明其具有卓越的感知质量。仅在三维数据上训练的模型获得了最高的 PSNR，这可能是由于对渲染数据的评估偏差所致（因为本次测试仅使用了三维渲染数据）。结合多种数据源的完整方法在感知质量和性能之间取得了平衡。

视觉对比

研究者还与之前的方法进行了直观比较。如图 6 所示，与 Relightful Harmonization 相比，由于训练数据集更大更多样化，本文模型对阴影的鲁棒性更高。SwitchLight 和本文模型产生了具有竞争力的重新照明结果。这种方法的法线贴图质量更细致一些，这要归功于从多个表象中合并和推导阴影的方法。此外，与 GeoWizard 和 DSINE 相比，该模型生成的人类法线贴图质量更高。

更多研究细节，可参考原论文。

往期 · 推荐

使用大语言模型进行自动且多功能的评估

上海AI实验室版o1已上线！数学竞赛题、Leetcode赛题全拿下，还会玩24点

LiveBench: 一个具有挑战性且无污染的 LLM 评测基准

o1圈的新王！阿里QwQ-32B开源

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉