ICLR'25 惊现[10,10,10,10]满分论文,ControlNet 一作张吕敏新作,Github 5.8k 颗星

科技   2024-12-05 00:02  


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶科技说
作者 | 兔子酱
这两天,ICLR 2025 的 discussion phase 临近截止,截止目前,惊现了一篇满分论文,4个审稿人同时打出了10分、10分、10分、10分,这是什么炸裂的存在?!
同时征服了所有的审稿人,都给出了最高档评级strong accept!
这篇论文来自AI绘图界的赛博佛祖——张吕敏,业内称他为敏神,他还是大名顶顶的ControlNet的作者。
而这次获得最高分的论文,是他半年前就在GitHub上开源的一个项目——叫IC-Light。
IC-Light,全称是"Imposing Consistent Light",就是控制图像照明,简而言之,动动嘴就能控制图片的光影效果
目前,这个项目已经获得5.8K的star,非常火爆。它的牛逼之处就在于,可以随意控制照片主体的光源和背景,将主体、光源、背景三者迅速地融合在一张图片里,非常真实。
目前IC-Light支持两种控制方式:基于文本引导和基于背景图来引导。
对于任意一张照片,通过提示词迅速地改变光影效果;或者指定一张背景照片,重新打光,迅速地生成符合新背景环境光线的照片。

文本引导生成

Prompt: beautiful woman, detailed face, sunshine, outdoor, warm atmosphere 
提示:美女、细致的脸庞、阳光、户外、温馨的氛围 Lighting Preference: Right
照明偏好:右
Prompt: Buddha, detailed face, sci-fi RGB glowing, cyberpunk 提示:佛像、细致的脸部、科幻RGB发光、赛博朋克 Lighting Preference: Left
照明偏好:左
Prompt: beautiful woman, detailed face, light and shadow 
提示:美丽的女人,细致的脸庞,光影 Lighting Preference: Left
照明偏好:左

背景引导生成

在 ICLR 投稿之前,这个工作就已经开源了,最初只适配于SD1.5和SDXL,最近作者又推出了V2版本IC-Light V2 ,基于FLUX,具有 16ch VAE 和原生高分辨率。
V2版本细节保留能力远高于SD1.5的版本,具有更好的主体风格一致性。基于SD1.5有时候会对原始图像的风格进行修改,比如,下面这张图的生成效果。
V2的版本在保持主体风格一致性的前提下,生成完美融合光源背景的图片。
目前,作者发布了两种类型的模型:文本条件重新光照模型和背景条件模型。两种类型都需要前景图像作为输入。
如果想了解更多细节和想试玩的小伙伴,看这里~
Github链接V1版本 :
https://github.com/lllyasviel/IC-Light
V2 版本:
https://github.com/lllyasviel/IC-Light/discussions/98
敏神还贴心地放出了打光模型的体验地址,但是只能体验第一种文本引导的生成方式,想要什么图需要放在提示词文本里控制。
https://huggingface.co/spaces/lllyasviel/IC-Light8
另外,网上还有大神【Zho】做好了IC-Light 的 Colab 方案,也不需要排队等待,这个Colab把背景图引导的方式也支持上了,背景图片 + 简单提示词,就可以进行重新打光,地址在这里:
https://colab.research.google.com/drive/1-pXSpTH-zNhaAKFmMvh-xj7Zp9781L2f?usp=sharing
这个IC-Light是真的强。
就好比ControlNet的出现直接将Stable Diffusion从AI绘画玩具变成了可控的AI绘画工具一样。
IC-Light代表的是落地级的工具插件,直接把AI绘画工具干到生产力级别的神器!
有了这个神器,大量的AI绘图的场景,比如电商场景里千千万万件商品的拍摄、模特拍照,照相馆里的人物写真摄像,还有室内家居设计,这些需要主体和背景结合的图片内容,都能规模化批量生产。
因为它能够轻易地解决主体、背景、光线的融合衔接问题。
这将是AI绘画变成生产力工具的一块重要拼图。

满分论文的作者张吕敏

IC-Light、ControlNet这些项目是真的强,不过,我觉得更强的是他们的作者——张吕敏。
他2021年本科毕业于苏州大学,后来去斯坦福读博。
从大学开始就开始研究AI绘画,大一就发了paper了,本科期间一共发了10篇论文一作,都是AI绘画相关的。
本人非常低调,我去搜了一下,他连Google Scholar账号都没有注册,论文这么高产,大几百上千的citation早就有了。
他的GitHub项目主页是:
https://github.com/lllyasviel
动辄一个项目就几K的star,简直就是AI绘图届的顶流。
Paints-UNDO是一个将真实人类绘画行为建模到AI绘画模型中,生成更符合人类审美和创作风格的图像。通过分析人类在绘画过程中的操作,例如画笔的移动、颜色选择等,来学习人类的创作意图。然后,将这些意图融入到 AI 模型的训练中。
另一项出圈的项目是LayerDiffuse,给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG),区别于抠图,它是用模型生成透明图像。
能够十年如一日坚持在AI绘画领域深耕,重点是开源的,这一点非常值得我敬佩。
热爱+坚持+分享,永远是最动人的。
愿你和我都能在热爱的领域发光!

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理
关注AI前沿技术,助力AI学者进步
 最新文章