写在前面
WeThinkIn最新福利放送:大家只需关注WeThinkIn公众号,后台回复“简历资源”,即可获取包含Rocky独家简历模版在内的60套精选的简历模板资源,希望能给大家在AIGC时代带来帮助。
AIGC时代的《三年面试五年模拟》算法工程师求职面试秘籍(持续更新)独家资源:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main
Rocky最新发布Stable Diffusion 3和FLUX.1系列模型的深入浅出全维度解析文章(持续更新),点击链接直达干货知识:https://zhuanlan.zhihu.com/p/684068402
WeThinkIn导读
Sana通过32倍压缩率的AutoEncoder、线性注意力机制、Decoder-only的文本编码器以及高效的训练和采样方法,实现了在计算效率和图像质量上的显著提升。sana能够快速生成高达4K分辨率的高质量图像,并且可以在笔记本电脑的GPU上运行。
本文目录
1 Sana:高分辨率文生图的线性扩散模型
(来自 NVIDIA, MIT 韩松团队,清华)
1 Sana 论文解读
1.1 Sana 研究背景
1.2 Sana 核心贡献
1.3 32 倍压缩率的 AutoEncoder
1.4 高效的线性注意力线性 DiT
1.5 Decoder-only 的 LLM 作为文本编码器
1.6 高效的训练和采样
1.7 端侧部署
1.8 模型架构细节和评测标准
太长不看版
线性扩散模型 + 文生图 + 高分辨率 + 从头训练的极佳范本。
NVIDIA 的研究员们,联合 MIT 韩松团队等一起提出 Sana 模型,是一个基于扩散模型的文生图框架,可以高效生成高达 4K (4096×4096) 分辨率的图像。Sana 可以非常快的速度生成文本图像对齐得很好的高分辨且高质量图片,而且可以部署在笔记本电脑的 GPU 上。
Sana-0.6B 与超大型扩散模型 (如 Flux-12B) 相比很有竞争力,同时比后者小 20 倍,吞吐量快 100+ 倍。Sana-0.6B 也可以部署在 16GB 笔记本电脑 GPU 上,生成 1K (1024×1024) 分辨率的图像需要的时间不到 1 秒。
下图 1(a) 是 1.6B 的 Sana 模型的生成结果采样。图 1(b) 和 1(c) 分别是生成 1024×1024 和 4096×4096 图片时不同模型的延时数据对比。
本文的核心贡献包括:
1) 一个 32 倍压缩率的 AutoEncoder: 传统的 AutoEncoder 一般都是压缩 8 倍,本文训练了一个超高倍压缩的 AutoEncoder,可以极大程度降低 latent tokens 的数量。
2) 把 DiT 换成线性注意力的 Linear DiT: 在高分辨率下不损失质量,同时更高效。
3) Decoder-only 的 LLM 作为文本编码器: 把文本编码器从 T5 换成 decoder-only 的小 LLM。同时,设计了一些复杂的人类指令来增强图像-文本对齐。
4) 高效的训练和采样: 提出 Flow-DPM-Solver 减少采样步骤,通过高效的字幕标记和选择加速收敛。
下面是对本文的详细介绍。
1 SANA:高分辨率文生图的线性扩散模型
论文名称:SANA: Efficient High-Resolution Image Synthesis with Linear Diffusion Transformers
论文地址:
http://arxiv.org/pdf/2410.10629
项目主页:
http://nvlabs.github.io/Sana/
1.1 SANA 研究背景
Latent Diffusion Model 对于文生图扩散模型的帮助很大,而且取得了不小的商业价值。研究人员对几个关键点逐渐取得了一些共识:
把 U-Net 换成 ViT,代表作:PixArt-α,PixArt-Σ,Stable Diffusion 3。 使用 Vision Language Models (VLM) 对图片做标签,代表作:PixArt-α,Dalle-3,Lumina-Next,Playground v3。 改进 Variational Autoencoders (VAEs) 或者文本编码器,代表作:SDXL,Stable diffusion v3,Emu。 高分辨率图像生成,代表作:PixArt-Σ。
另一方面,工业界的模型变得越来越大,参数量从 PixArt 的 0.6B 到 SD3 的 8B,LiDiT 的 10B,Flux 的 12B,Playground v3 的 24B。这种趋势导致训练和推理成本极高,给那些苦于昂贵成本的消费者们带来了挑战。
鉴于这些挑战,本文提出一个关键的问题:能否开发一个高质量且高分辨率的图像生成器,该生成器的计算效率很高,并在云和边缘设备上运行非常快?
本文提出了 Sana,Sana 是一种高效且具有成本效益的训练和合成图像的模型,支持分辨率有 1K (1024×1024) 和 4K (4096×4096)。除了 PixArt-Σ[1]之外,还没有已发表的作品直接探索了 4K 分辨率的图像生成。然而,PixArt-Σ 仅限于生成接近于 4K (3840×2160) 分辨率图像,并且在生成此类高分辨率图像时相对慢。
1.2 Sana 核心贡献
Sana 的几个核心设计:
1) 一个 32 倍压缩率的 AutoEncoder: 传统的 AutoEncoder 一般都是压缩 8 倍 (AE-F8)。与 AE-F8 相比,本文的 AE-F32 使得 latent tokens 节约 16 倍,这对于高效地训练和生成超高分辨率 (例如 4K 图像) 而言至关重要。
2) 高效的线性注意力 Linear DiT: 引入线性 DiT,把计算复杂度从 变为 。同时引入一个 Mix-FFN 模块,把 3×3 Depth-wise 卷积引入 MLP 来聚集局部信息。本文认为:线性注意力可以通过适当的设计实现与普通注意力相当的结果,并且对于高分辨率图像生成更高效 (例如,在 4K 分辨率时加速 1.7 倍)。此外,Mix-FFN 的间接好处是使得模型不再需要位置编码 (NoPE)。首次删除了 DiT 中的位置编码,且没有发现质量损失。
3) Decoder-only 的 LLM 作为文本编码器: 把文本编码器从 T5 换成 decoder-only 的小 LLM Gemma,来增强有关用户提示的理解和推理能力。作者认为原先常用的 T5 或者 CLIP 进行文本编码缺乏强大的文本理解和指令跟踪能力。而 Decoder-only 的 LLM,例如 Gemma,表现出强大的文本理解和推理能力,展示了有效遵循人类指令的能力。其次,本文设计了一些复杂的人类指令来增强图像-文本对齐,来利用LLM强大的指令跟踪、上下文学习和推理能力来改进图像-文本对齐。
4) 高效的训练和采样: 本文提出了一组自动标记和训练策略来提高文本和图像之间的一致性。首先,对于每个图像,利用多个 VLM 来生成重新标题。尽管这些 VLM 的能力各不相同,但它们的互补优势提高了字幕的多样性。此外,本文提出了一种基于 clipscore 的训练策略,根据概率为对应于图像的多个字幕动态选择具有高 clipscore 的标题。实验表明,该方法提高了训练收敛性和图文对齐。此外,本文提出了一种 Flow-DPM-Solver,与广泛使用的 Flow-Euler-Solver 相比,它将推理采样步骤从 28-50 减少到 14-20 步,同时取得了更好的结果。
1.3 32 倍压缩率的 AutoEncoder
Latent Diffusion Model (LDM) 的思想就是令扩散模型在压缩之后的 latent 空间中使用。这个 latent 空间一般是通过一个预训练好的 AutoEncoder 得到的。很多工作诸如 PixArt-a, PixArt- , Stable Diffusion 3 等等采用下采样率 的 AutoEncoder, 把图片从像素空间 映射到 。如果再在 latent 空间使用 Patch 化,最终的 token 数量就会变为 。
之前的 LDM,例如 PixArt-α,PixArt-Σ、SD3 和 Flux,通常使用 AE-F8C4P2 或 AE-F8C16P2,其中 AE 压缩 8 倍,DiT 压缩 2 倍。在本文 Sana 中,将压缩因子缩放到 32 倍,并提出了几种保持质量的技术。
与之前的 AE-F8 不同,本文的目标是增加压缩比。动机是高分辨率图像自然包含更多冗余信息。此外,高分辨率图像 (例如 4K) 的有效训练和推理需要 AutoEncoder 的高压缩比。图 2 表明,在 MJHQ-30K 上,虽然以前的方法 (如 SDv1.5) 尝试使用 AE-F32C64,但质量仍然明显低于 AEF8C4。本文的 AE-F32C32 有效地弥合了这一质量差距,实现了与 SDXL 的 AE-F8C4 相当的重建能力。作者认为 AE 的微小差异不会成为 DiT 能力的瓶颈。
而且,作者认为 AutoEncoder 应该完全负责压缩,使得我们可以不用通过增加 Patch Size PP 来进一步压缩,从而允许 latent diffusion model 只关注去噪。因此,作者开发了一个下采样因子为 F=32F=32 、通道 C=32C=32 的 AE,并在其 latent 空间中运行扩散模型,Patch Size 为 1 (AE-F32C32P1)。这种设计将 token 的数量减少了 4 倍,显着提高了训练和推理速度,同时降低了 GPU 内存需求。
不同 AutoEncoder 设计消融实验
从模型结构的角度来看,作者实现了几个调整来加速收敛。将 vanilla self attention 机制替换为 linear attention,以提高高分辨率生成的效率。此外,从训练的角度来看,本文提出了一种多阶段训练策略来提高训练稳定性,该策略涉及在 1024 × 1024 图像上微调 AE-F32C32,以在高分辨率数据上获得更好的重建结果。
作者对比了不同 Patch Size: AE-F8C16P4, AE-F16C32P2 和 AE-F32C32P1。这3种设置将 1024×1024 图像压缩为 32 × 32 tokens。FID 结果为 F32C32P1<F16C32P2<F8C16P4,如下图 3 所示。这表明允许 AutoEncoder 只关注高比压缩,并且 Diffusion Model 专注于去噪是最佳选择。
作者对比了 AE-F32 中的不同 Channel 数:最后选择 作为设置。如图 3(b) 所示, 更少的通道更快地收玫, 但重建质量更差。在 35 K 训练步骤后, 和 的收敛速度相似;然而, 产生更好的重建指标, 从而获得更好的 FID 和 CLIP 分数。尽管 C=64 提供了优越的重建, 但其以下 DiT 的训练收玫速度明显慢于 。
1.4 高效的线性注意力线性 DiT
本文所使用的 Linear attention 模块的示意图如图 4 所示。Self-attention 的计算复杂度为 ,在处理高分辨率图像时计算效率较低,开销较大。为了解决这个问题,作者首先提出了 Linear DiT,它完全用 Linear Attention 替换了原始的 Self-Attention,在不影响性能的情况下在高分辨率生成中实现了更高的计算效率。
此外,作者使用 Mix-FFN 来替换原始的 MLP-FFN,结合 3×3 Depth-wise Convolution 来更好地聚合 token 信息,同时保持 DiT 的宏观架构设计以保持简单性和可扩展性。
下面是 Linear attention 的表达式,作为初步探索,作者使用了一个简单的形式:
因为 和 只需要计算 1 次,可以被不同的 所复用, 所以内存和计算方面的计算复杂度为 。
Mix-FFN 模块。 与 Softmax 注意力相比,Linear attention 模型受益于计算复杂度的降低和更低的延迟。然而,没有非线性的相似度函数可能会导致次优的性能。作者在图像生成中观察到了类似的结论,其中 Linear attention 模型的收敛速度较慢。为了进一步提高训练效率,作者将原始 MLP-FFN 替换为 Mix-FFN。Mix-FFN 由倒置残差块、3×3 Depth-wise Convolution 和 GLU 组成。Depth-wise Convolution 增强了模型捕获局部信息的能力,弥补了 ReLU Linear attention 的较弱局部信息捕获能力。
不使用位置编码 (NoPE) 的 DiT。 作者发现,删除位置编码也不会损失性能。与之前主要使用绝对位置编码、可学习位置编码和 RoPE 的方法相比,本文提出了 NoPE,第一个完全省略了 DiT 中的位置编码设计。
Triton 加速训练和推理。 为了进一步加速线性注意力,作者使用 Triton[2]来融合线性注意块的前向和后向传递的Kernel,以加快训练和推理速度。通过将所有逐元素操作 (包括激活函数、精度转换、填充操作和除法) 融合到矩阵乘法中,作者减少了与数据传输相关的开销。
1.5 Decoder-only 的 LLM 作为文本编码器
最先进的 LLM 是在大规模的数据上训练的 Decoder-only 的 GPT 架构。与 T5 相比,Decoder-only 的 LLM 具有强大的推理能力。它们可以通过使用思维链 (CoT) 和上下文学习 (ICL) 来跟踪复杂的人类指令。一些小的 LLM,如 Gemma-2[3],可以与大型 LLM 的性能相媲美,同时非常高效。因此,本文作者选择采用 Gemma-2 作为文本编码器。
如下图 5 所示,与 T5-XXL 相比,Gemma-2-2B 的推理速度快 6 倍,而 Gemma-2B 的性能在 Clip Score 和 FID 方面与 T5-XXL 相当。
使用 LLM 作为文本编码器稳定训练:作者提取 Gemma2 Decoder 的最后一层特征作为 text Embedding。作者凭经验发现,直接使用 T5 的文本嵌入作为 Cross attention 训练的 Key,Value,图片 token 作为 Query 的方法会导致不稳定,训练损失经常变成 NaN。
作者发现 T5 text embedding 的方差比 Decoder-only 的 LLM 的方差小几个数量级 (Gemma-1-2B、Gemma-2-2B、Qwen-2-0.5B),表明 text embedding 输出中存在很多较大的绝对值。为了解决这个问题,作者在 Decoder-only 的文本编码器之后添加了一个归一化层 (即 RMSNorm),将文本嵌入的方差归一化为 1.0。此外,作者发现了一个有用的技巧,通过初始化一个小的可学习比例因子 (例如 0.01) 并将其乘以文本嵌入来进一步加速模型收敛。
复杂的人类指令改进文本图像对齐: Gemma 比 T5 具有更好的指令跟随能力。作者可以进一步利用这种能力来加强 text embedding。Gemma 是一个聊天模型,尽管它具有强大的能力,但它在某种程度上可能是不可预测的,因此需要添加指令来帮助它专注于提取和增强提示本身。LiDiT[4]是第一个将简单的人类指令与用户提示相结合的人。在这里,通过使用 LLM 的上下文学习来设计复杂的人类指令 (CHI) 来进一步扩展它。如图 7 所示,在训练期间结合 CHI,无论是从头开始还是通过微调,都可以进一步提高图像-文本对齐能力。
此外,如图 8 所示,作者发现当给定一个短提示 (例如 "a cat") 时,CHI 帮助模型生成更稳定的内容。很明显,没有 CHI 的模型经常输出与提示无关的内容。
1.6 高效的训练和采样
数据调配
多字幕自动标注的 Pipeline:对于每个图像,不论其是否本就有 prompt,都使用 4 个 VLM 对其进行标记:VILA-3B/13B、InternVL2-8B/26B。多个 VLM 可以使字幕更准确、更多样化。
基于 CLIP-Score 的字幕采样器:多个字幕的一个问题是训练期间选择哪一个。随机选择一个有可能选择到低质量的文本并影响模型性能。
本文提出了一个基于 clip score 的采样器, 希望以更大的概率对高质量的文本进行采样。首先计算对应于图像的所有字幕的 clip score 。在采样时, 根据剪辑分数的概率进行采样。在这里, 我们在概率公式中引入了一个额外的超参数温度 。温度可用于调整采样强度。如果温度接近 0,则只采样 clip score 最高的文本。图 9 的结果表明,字幕的变化对图像质量 (FID) 的影响最小,同时在训练期间提高语义对齐。
级联分辨率训练:受益于使用 AE-F32C32P1,作者跳过 256px 分辨率预训练并直接以 512px 分辨率开始预训练,逐渐将模型微调为 1024px、2K 和 4K 分辨率。作者认为,传统的 256px 分辨率的图像丢失了太多详细的信息,导致模型在图像-文本对齐方面学习速度较慢。
Flow-based 训练和推理
训练:
作者分析了 SD3 的 Rectified Flow 的性能,并发现与依赖预测 noise 的 DDPM 不同,1-Rectified Flow (RF)[5]和 EDM[6]使用预测 data 或者 velocity,使得收敛更快,性能更好。
所有这些方法都遵循一个共同的扩散公式:, 其中 表示图像数据, 表示随机噪声, 和 是扩散过程的超参数。
DDPM 的训练目标是预测 noise, 定义为 。
EDM 和 RF 都遵循不同的方法:EDM 旨在以目标 进行预测 data, 而 RF 使用目标 来预测 velocity。
这种从预测 noise 到预测 data 或者 velocity 的转变在 附近至关重要, 其中预测 noise 可能导致不稳定,而预测 data 或者 velocity 提供了更精确和更稳定的估计。正如 所指出的, 附近的注意力激活值更强,进一步强调了准确预测在这个临界点的重要性。这种移位有效地减少了采样过程中的累积误差, 使得收敛更快和性能更好。
推理:
本文修改了原始的 DPM-Solver++ 调整 Rectified Flow 公式, 称为 Flow-DPM-Solver。关键调整包括用 替换比例因子 , 其中 保持不变, 但时间步长在 范围内重新定义, 而不是 [1,1000], 遵循 SD3 应用时间步长移位来实现更低的信噪比。此外, 本文模型预测 velocity, 这与原始 DPM-Solver++ 预测 data 不同。具体来说,数据来自: data 其中 是模型预测的速度。
结果如图 10 所示,Flow-DPM-Solver 在 14∼20 步收敛,性能更好,而 Flow-Euler 采样器需要 28∼50 步才能收敛,结果更差。
1.7 端侧部署
为了实现端侧部署,作者对本文模型使用 8-bit 整数量化。具体来说,作者采用 per-token 对称 INT8 量化激活值,per-channel 对称 INT8 量化权重。此外,为了保持与 16-bit 模型的高度语义相似性,同时产生最小的运行开销,作者以全精度保留归一化层、线性注意力和在 Cross-attention 块内的 Key,Value 投影层。
作者使用 CUDA C++ 中实现了本文的 W8A8 GEMM Kernel,并使用 Kernel Fusion 技术来减轻与不必要的激活负载和存储相关的开销,从而提高整体性能。具体来说,将线性注意的 与 QKV 投影层相结合。作者还将门控线性单元 (GLU) 与 Mix-FFN 中的量化内核融合,并组合其他 Element-Wise 的操作。此外,作者调整了激活布局,以避免 GEMM 和 Conv Kernel 中的任何转置操作。
下图 12 展示了在 4090 GPU 的客户级边缘设备上部署优化前后的速度比较。为了生成 1024×1024 分辨率的图像,本文优化的实现实现了 2.4 倍的加速,只需要 0.37 秒,同时保持几乎无损的图像质量。
1.8 模型架构细节和评测标准
下图 13 展示了网络架构的详细信息。Sana-0.6B 仅包含 590M 参数,层数和 Channel 数与原始 DiT-XL 和 PixArt-Σ 几乎相同。Sana-1.6B 将参数增加到 1.6B,每层有 20 层,每层 2240 个 Channel,并将 FFN 中的 Channel 增加到 5600。作者认为将模型层保持在 20 到 30 之间在效率和质量之间取得了很好的平衡。
作者使用 5 个主流评估指标来评估 Sana 的性能:FID、Clip Score、GenEval、DPG-Bench 和 ImageReward,并将其与 SOTA 方法进行比较。在 MJHQ-30K 数据集上评估 FID 和 Clip 分数,该数据集包含来自 Midjourney 的 30K 图像。GenEval 和 DPG-Bench 都专注于测量文本图像对齐,分别有 533 和 1,065 个测试 Prompt。ImageReward 评估人类的偏好性能并包括 100 个 Prompt。
1.9 性能比较
作者将 Sana 与最先进的文生图扩散模型进行对比,结果如图 14 所示。对于 512×512 分辨率,Sana-0.6 展示了比具有相似尺寸的 PixArt-Σ 快 5 倍的吞吐量,并且在 FID、Clip Score、GenEval 和 DPG-Bench 中明显优于 PixArt-Σ。对于 1024×1024 分辨率,Sana 比大多数具有 3B 参数的模型都强得多,并且在推理延迟方面表现出色。即使与更高级的大模型 FLUX-dev 相比,Sana 也能实现有竞争力的性能。比如,DPG-Bench 的精度在 GenEval 上轻微下降,但是 Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍。
在下图 15 中,作者分析了在 1024×1024 分辨率下将原始 DiT 模块替换为相应的 Linear DiT 模块的效率。可以观察到,使用 AE-F8C4P2,用 Linear attention 替换原始的 Self-attention 可以将延迟从 2250ms 降低到 1931ms,但生成结果更差。用本文的 Mix-FFN 替换原始 FFN 补偿性能损失,尽管它牺牲了一些效率。通过 Triton Kernel Fusion,Linear DiT 最终可以在 1024×1024 尺度上比原始 DiT 稍快,并且在更高的分辨率下更快。此外,当从 AE-F8C4P2 升级到 AE-F32C32P1 时,MAC 可以进一步减少 4 倍,吞吐量也可以提高 4 倍。Triton Kernel Fusion 可以带来约 10% 的加速。
下图 16 左侧比较了 Sana、Flux-dev、SD3 和 PixArt-Σ 的生成结果。
第 1 行文本渲染的中,PixArt-Σ 缺乏文本渲染能力,而 Sana 可以准确地呈现文本。
第 2 行中,Sana 和 FLUX 生成的图像质量具有可比性,而 SD3 的文本理解不准确。
图 16 的右侧显示 Sana 可以成功地在本地部署在笔记本电脑上。
参考
^PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation ^Triton: an intermediate language and compiler for tiled neural network computations ^Gemma 2: Improving open language models at a practical size ^Exploring the role of large language models in prompt encoding for diffusion models ^Flow matching for generative modeling ^Elucidating the Design Space of Diffusion-Based Generative Models ^ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers ^Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models
推荐阅读
1、加入AIGCmagic社区知识星球
AIGCmagic社区知识星球不同于市面上其他的AI知识星球,AIGCmagic社区知识星球是国内首个以AIGC全栈技术与商业变现为主线的学习交流平台,涉及AI绘画、AI视频、大模型、AI多模态、数字人、全行业AIGC赋能等50+应用方向,内部包含海量学习资源、专业问答、前沿资讯、内推招聘、AI课程、AIGC模型、AIGC数据集和源码等。
那该如何加入星球呢?很简单,我们只需要扫下方的二维码即可。知识星球原价:299元/年,前200名限量活动价,终身优惠只需199元/年。大家只需要扫描下面的星球优惠卷即可享受初始居民的最大优惠:
2、《三年面试五年模拟》算法工程师面试秘籍
《三年面试五年模拟》面试秘籍旨在整理&挖掘AI算法工程师在实习/校招/社招时所需的干货知识点与面试方法,力求让读者在获得心仪offer的同时,增强技术基本面。
Rocky已经将《三年面试五年模拟》面试秘籍的完整版构建在Github上:https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer/tree/main,欢迎大家star!
想要一起进行项目共建的朋友,欢迎点击链接加入项目团队:《三年面试五年模拟》版本更新白皮书,迎接AIGC时代
3、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:https://zhuanlan.zhihu.com/p/706722494
4、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:https://zhuanlan.zhihu.com/p/684068402
5、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:https://zhuanlan.zhihu.com/p/643420260
6、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:https://zhuanlan.zhihu.com/p/632809634
7、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:https://zhuanlan.zhihu.com/p/660924126
8、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:https://zhuanlan.zhihu.com/p/639229126
9、Transformer核心基础知识,核心网络结构,AIGC时代的Transformer新内涵,各AI领域Transformer的应用落地,Transformer未来发展趋势等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Transformer文章地址:https://zhuanlan.zhihu.com/p/709874399
10、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:https://zhuanlan.zhihu.com/p/651076114
11、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
12、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:https://zhuanlan.zhihu.com/p/673439761
13、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
14、其他
Rocky将YOLOv1-v7全系列大解析文章也制作成相应的pdf版本,大家可以关注公众号WeThinkIn,并在后台 【精华干货】菜单或者回复关键词“YOLO” 进行取用。