2024年了,Diffusion模型还有什么可做的?

文摘   2024-10-25 08:00   北京  

近期文章回顾(更多热门文章请关注公众号与知乎Rocky Ding哦)

写在前面

WeThinkIn最新福利放送:大家只需关注WeThinkIn公众号,后台回复“简历资源”,即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源,希望能给大家在AIGC时代带来帮助。

Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章,点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402


纯属brainstorm,欢迎大家一起探讨。我会尽可能举一些具体例子来分析。部分点在我之前的一个相关回答中也有,大家可以移步参考:

当前基于diffusion model的文生图模型有些什么缺陷?(https://www.zhihu.com/question/647244779/answer/3422163670)

这个回答对之前的回答做进一步的补充完善。我们通过 “数据、模型、优化” 三个角度,再加上能做的 “任务” ,可以将diffusion models的全流程解剖一下,然后一个一个来看,个人比较看好的方向加粗标出

  • 数据
    • 生成图像的分辨率
    • 生成特定领域图像
  • 模型
    • 压缩模型
    • 网络架构
    • 文本编码
    • 采样
  • 优化
  • 对齐特定人类偏好
  • 推理
  • 任务
    • 视频生成
    • Instruction-Based Editing

数据

“数据”角度主要还是关注生成图像的一些特性,比如说生成图像的resolution、domain等等。

生成图像分辨率

关注生成图像的“分辨率”其实就是做“High-Resolution Image Synthesis”,个人一直认为属于是 “简单但难解的工程问题” ,原因很简单,分辨率成倍增大,生成模型要生成的像素点就需要以2次方倍的速度增加。

经典的例子一般通过优化压缩模型或者是采用“生成 + 超分”来做。

对于前者来说,比较经典的例子就是Stable Diffusion了,将DDPM在pixel space的diffusion process直接搬到VQGAN的隐空间里做,大家都很熟悉了,这里就不再展开。

Stable Diffusion的模型架构图

个人感觉这里一个可能的点是怎样优化压缩模型,采用更激进的下采样策略,同时又能保证压缩模型带来的精度损失在可接受的范围内 ,来实现更高分辨率的生成。举个具体例子,Stable Diffusion的VQGAN目前是将512×512的图像,压缩至64×64的latent feature(下采样8倍),假设我们能够拿到这样一个“超级压缩模型”,能够实现512×512到16×16(下采样32倍),那么直接拿Stable Diffusion这一套去用,理论上就能实现2048×2048的更高分辨率生成。

生成 + 超分”的范式可以关注近期清华 + 智谱AI做的Cogview 3(https://arxiv.org/abs/2403.05121),目前已经能做到最高2048×2048的生成,超分阶段采用了Relay Diffusion,Relay Diffusion是关于diffusion models的noise scheduling来增强高分辨率生成的工作,挺有意思的,而noise scheduling又属于比较小众的赛道,这一块也还有研究空间。

Cogview 3的结果

关于Relay Diffusion以及Cogview 3的解析,可以参考我的文章:

从Relay Diffusion到Cogview 3:浅谈Noise Scheduling与扩散模型(https://zhuanlan.zhihu.com/p/686899891)

生成特定领域图像

这一块其实涉猎面就挺广的,“特定领域”(specific domain)指的可以是特定“美感”的图片,也可以是灰度图像、线稿图、医疗图像这类专业领域的图片。近期的Playground v2.5其实也是基于这个motivation开展工作的,对比证明了SDXL生成“特定背景下”的图片仍然面临困难:

Playground v2.5的motivation

能做的点,一方面是方法,虽然说Civitai上面众多的SD插件已经证明了LoRA微调是比较有效的方案,但是training-free solution还可以研究;另一方面就是生成什么domain的图像,这就涉及这样做具体有什么应用价值,以及故事应该怎么讲的问题。

近期有一些做生成医疗图像的工作,尚不清楚其具体应用价值,不过也一同分享出来,有需要的朋友可以参考。例如LLM-CXR(https://arxiv.org/abs/2305.11490)

LLM-CXR的方法流程图

MedXChat(https://arxiv.org/abs/2312.02233)

MedXChat的方法流程图

模型

模型上主要还是按照现有主流latent diffusion models的设计,分为压缩模型、网络架构、文本编码三块,加上模型采样过程的优化。

压缩模型

压缩模型本质是一个图像压缩问题,即怎样尽可能多地节约数据容量,同时又能够保证数据精度的损失可以接受。正是因为这样,懂压缩模型的人其实相对较少,怎样能结合生成的特点设计压缩模型,其实还有较大研究空间。

近期的一些相关研究,例如Wuerstchen(https://arxiv.org/pdf/2306.00637.pdf),提出级semantic compression将图像在像素空间的信息加入到latent diffusion models中

Wuerstchen的方法流程图

另外近期的Stable Diffusion 3(https://arxiv.org/pdf/2403.03206.pdf)也在压缩模型上做出了改进,将VQGAN latent feature的channel数量增大了,从而减少压缩模型编码-解码过程中的精度损失 ,其重构性能在多个指标上都有显著提升:

Stable Diffusion 3改进后VQGAN的重构性能

尽管如此,现有的改进都偏工程化,压缩模型方面仍有较大的改进空间。关于Stable Diffusion 3的具体分析,可以参考我的往期文章:

一文解读:Stable Diffusion 3究竟厉害在哪里?(https://zhuanlan.zhihu.com/p/685457842)

网络架构

网络架构方面不得不提Diffusion Transformer(https://arxiv.org/abs/2212.09748),既然2024年初OpenAI的Sora(https://openai.com/research/video-generation-models-as-world-simulators)、StabilityAI的Stable Diffusion 3都不约而同采用了这一架构;同时,PixArt系列的工作也一直采用的是这一架构,更加证明了其可行性。这些AI巨头的动作势必会带动一系列基于Diffusion Transformer的工作。

Diffusion Transformer的模型架构图

关于Diffusion Transformer的具体解读,可以参考我的往期文章:

Diffusion Transformer Family:关于Sora和Stable Diffusion 3你需要知道的一切(https://zhuanlan.zhihu.com/p/684448966)

文本编码

文本编码这一块其实是个人比较看好的发展方向,因为目前NLP社区大语言模型的发展也非常快,而大多数diffusion models还是沿用以往工作的CLIP或者T5-XXL来做文本编码。如何将LLM跟diffusion models做结合,以及结合后有什么应用价值 ,目前的工作还不多,例子可以参考ACM MM 2024的SUR-Adapter(https://arxiv.org/abs/2305.05189)

SUR-Adapter的模型架构图

另外值得一提的是,在DALL-E 3的带领下,Re-captioning基本上已成为了现有方法的标配,Cogview 3更是借助GPT-4V的多模态能力通过Visual QA的方式升级了Re-captioning的设计,随着GPT系列多模态能力的进一步增强,通过对GPT做一些prompt engineering拿到更多文本数据,也还大有文章可做。

补充 :“Diffusion + LLM”目前工作也还不多,可能是因为同时需要懂NLP和CV,有一定的技术门槛,具体可以参考我的文章:

When LLMs Meet Diffusion Models:浅谈LLMs与Text-to-Image Diffusion Models中的文本编码(https://zhuanlan.zhihu.com/p/687482566)

采样

采样主要考虑两个方面,一个提升采样质量,二是加速采样

第一点属于理论性要求比较高的工作,参考Classifier Guidance(https://arxiv.org/abs/2105.05233)和Classifier-Free Guidance(https://arxiv.org/abs/2207.12598),有一定研究难度,但是idea如果work的话也具有巨大的普适价值。

第二点其实是目前主流的趋势,基本上都是基于Progressive Distillation(https://arxiv.org/abs/2202.00512)来做。具体工作可以参考:SDXL-Lightning(https://arxiv.org/html/2402.13929v1)、Stable Cascade(https://stability.ai/news/introducing-stable-cascade)、SDXL Turbo(https://stability.ai/news/stability-ai-sdxl-turbo)、Cogview 3等等,具体不再过多展开。

关于Diffusion Distillation,可以参考我的往期回答:

现如今的知识蒸馏领域,在多模态方面有什么可以做的点子?(https://www.zhihu.com/question/646919153/answer/3420804334)

优化

优化方面个人认为其实也是大有可为的,现有方法大多还是沿用标准的MSE loss,而NLP社区LLM在强化学习方面的研究已经很多了,其实其中可以借鉴的点还比较多。

对齐人类特定偏好

说到LLM结合强化学习,大家第一印象想到的肯定是RLHF。事实上RLHF能做的事情有很多,可以增强样本质量、跟人类偏好做对齐,甚至是跟特定领域对齐,做domain adaptation,等等。

而反观图像生成社区,diffusion models跟强化学习结合的工作其实还不多,比较有名的工作可以参考DDPO(https://arxiv.org/abs/2305.13301)。这方面由于我对强化学习不太熟悉,仅做分享,但从LLM研究的视角来看,在scaled up diffusion models的大趋势下,RLHF想必一定也能有它的用武之地。

推理

推理方面是个人感觉比较有意思的,相关的工作也还不多。例如名字比较有趣的MiniGPT-5(https://arxiv.org/abs/2310.02239),同样也是“LLM + Diffusion”的工作,可以看下它能做的一个例子:

MiniGPT-5的结果例子

为什么说“推理”值得去做? 个人认为效果如果能够实现图像维度的信息推理,那么就将In-Context Learning又上升了一个高度,具体能做的事情其实很多,比方说Text-to-Comic Generation ,能够生成漫画(如果一致性能保持好的话);Storybook Generation,等等。这些任务如果做得足够好,或许会有新的文生图任务定义,甚至能产生可观的商业价值。

任务

任务上更多的是其他数据模态的生成,或者是文生图的任务变式来考虑。

视频生成

视频生成自然不用多说了,年初OpenAI放出的Sora,势必会带来一个视频生成的风口,带动一系列这方面的研究。另一方面,根据个人的调研结果,目前视频生成的工作还不多,仍有较大挖掘空间。关于视频生成的顶会文章,可以参考我GitHub repo收录的paper list:

Video Generation Paper List(https://github.com/AlonzoLeeeooo/awesome-video-generation)

Video Generation GitHub Repo部分截图

Instruction-Based Editing

Instruction-Based Editing其实属于文生图的一个任务变式,这一任务自从CVPR 2022的InstructPix2Pix(https://arxiv.org/abs/2211.09800)之后,连续两年的CVPR都收录了大约30篇左右的相关工作,而InstructPix2Pix在两年之内也是收获了小600个引用,足以证明这一方向的价值。其本质原理其实也类似前文中说到的 “推理”

InstructPix2Pix中展示的Instruction-Based Editing的结果例子

关于Instruction-Based Editing的具体研究,可以参考我的往期回答:

对于“扩散模型中的图像编辑”方向,可以推荐论文和相应的开源代码吗?(https://www.zhihu.com/question/647418577/answer/3423639220)

Diffusion Models for NLP

目前从Transformer盛行的NLP社区来看,diffusion models for NLP绝对是一个可以深挖的点,具体可以参考我的回答:

目前有将diffusion model用于文本生成的研究吗?(https://www.zhihu.com/question/558525517/answer/3437058958)


推荐阅读

1、加入AIGCmagic社区知识星球

AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、ChatGPT等大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AIGC模型、AIGC数据集和源码等

那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,前200名限量活动价,终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠:

2、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

Sora等AI视频大模型文章地址:https://zhuanlan.zhihu.com/p/706722494

3、Stable Diffusion3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

Stable Diffusion 3和FLUX.1文章地址:https://zhuanlan.zhihu.com/p/684068402

4、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260

5、Stable DiffusionV1-V2核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634

6、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1上手构建ControlNet高级应用等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126

7、LoRA系列模型核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126

8、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布

码字不易,欢迎大家多多点赞:

AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114

9、10万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布

码字不易,欢迎大家多多点赞:

算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303

《三年面试五年模拟》github项目地址(希望大家能给个star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer

10、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布

码字不易,欢迎大家多多点赞:

AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761

11、GAN网络核心基础知识、深入浅出解析GAN在AIGC时代的应用等全维度解析文章正式发布!

码字不易,欢迎大家多多点赞:

GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306

12、其他

Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。

Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于算法,开发,竞赛,科研以及工作求职等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)



WeThinkIn
Rocky相信人工智能,数据科学,商业逻辑,金融工具,终身成长,以及顺应时代的潮流会赋予我们超能力。
 最新文章