【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

文摘 2024-11-07 16:17 江苏

Stable Diffusion（SD模型），由Stability AI与LAION等机构合作研发，是一款功能强大的生成式模型，拥有约10亿（1B）参数。其应用广泛，包括但不限于文生图（txt2img）、图生图（img2img）及图像修复（inpainting）等功能。

论文地址：https://arxiv.org/pdf/2112.10752
github地址：https://github.com/CompVis/stable-diffusion

Stable Diffusion网络架构

#Stable Diffusion主要工作流：

· 提示词输入与文本编码：
文本编码器（Text Encoder）首先将用户输入的提示词（Prompt）转换为语义向量，这些语义向量携带着文本信息的精髓，为后续的图像生成提供指导。

· 潜在空间压缩：
为降低计算复杂度并提取图像的核心特征，采用变分自编码器（VAE）将高维度的图像数据压缩到一个低维度的潜在空间。这个潜在空间是图像信息的精简表示，为后续的处理提供了便利。

· 正向扩散过程：
在潜在空间中，模型通过逐步添加噪声来模拟物理中的扩散现象。这个过程使得图像的特征逐渐模糊，最终转化为完全随机的噪声分布。该步骤是后续噪声预测和图像恢复提的基础。

· 噪声预测器训练：
在训练阶段，采用U-Net结构的神经网络作为噪声预测器，该网络通过学习如何从噪声图像中恢复出原始图像来训练自己，从而具备预测潜在空间中图像噪声的能力。

· 反向扩散与图像生成：
在生成阶段，模型利用训练好的噪声预测器来估计潜在空间中图像的噪声，并逐步去除这些噪声。通过这一过程，模型能够从噪声中恢复出清晰的图像，实现图像的生成。

· 条件生成机制：
SD模型通过提示词来引导图像的生成。这些提示词首先被分词且转换为嵌入向量，再将向量输入到噪声预测器中，以指导整个图像生成过程。这种条件生成机制确保了生成的图像与提示词的内容高度匹配。

· VAE解码与图像输出：
最后，潜在空间中的图像通过VAE的解码器被转换回原始的像素空间，生成最终的图像。这一步骤将潜在空间中的图像信息还原为可视化的图像。

#CLIP Text Encoder模型：

在SD模型中前置引入CLIP Text Encoder模块，该模块负责将输入的文本信息编码成Text Embeddings特征矩阵，这一矩阵紧密关联并反映了文本信息的核心内容。随后，这些Text Embeddings被用作SD模型的控制信号，指导图像的生成过程，确保生成的图像与输入的文本信息高度匹配。

#VAE模块：

对于图生图任务，在提供文本信息的同时，还需要将原始图片送入VAE，VAE（变分自编码器，全称Variational Auto-Encoder）是一种基于Encoder-Decoder架构的先进生成模型。

VAE的Encoder组件负责将输入的图像高效地转换为一个低维度的Latent特征空间表示，这一表示捕捉了图像的关键信息。随后，这个低维的Latent特征被用作U-Net架构的输入，以进一步驱动图像的生成过程。

VAE的Decoder组件则承担着重建任务，它能够将这个低维的Latent特征逆向映射回原始的像素级图像，实现图像的高质量还原。

对于文生图任务，流程则相对简化：仅需输入文本信息，并借助random函数生成一个高斯噪声矩阵，这个矩阵将作为Latent Feature的替代。

#正向扩散与反向扩散：

· 正向扩散过程（Forward Diffusion Process）：是一个逐步向图像添加高斯噪声的过程，直至图像最终转变为近乎纯粹的随机噪声矩阵。这一过程模拟了信息从清晰图像向无序状态的自然过渡。

· 反向扩散过程（Reverse Diffusion Process）：则是一个去噪过程。它从一个随机噪声矩阵起始，通过一系列迭代步骤，逐步减少并去除噪声，直至最终恢复并生成一张清晰、有意义的图像。这一过程体现了从无序向有序、从潜在空间向可观察图像空间的逆向映射。

U-Net是一种在噪声估计与去除中广泛应用的神经网络架构，其名称源自其独特的U形结构。作为一种全卷积神经网络，U-Net在图像处理领域展现出了极高的效用。

该网络的核心特点在于其能够接收图像作为输入，并通过逐步的下采样（或称为编码过程）来提取图像的低维特征表示。这一过程有助于网络聚焦于图像中的重要属性和结构。随后，U-Net利用上采样（或称为解码过程）逐步恢复图像的细节，直至输出与输入图像尺寸相近的去噪图像。这种设计使得U-Net在图像去噪、分割等多种任务中表现出色。

#图像生成：

U-Net网络在SD中扮演着预测噪声的关键角色，并不断优化生成过程。在预测噪声的同时，U-Net还负责不断融入文本语义信息，以增强生成图像的相关性和准确性。为了更有效地控制生成过程，schedule算法被引入，它对U-Net每次预测的噪声进行动态调整和优化，从而精确控制U-Net预测噪声的强度。

在SD模型中，U-Net的迭代优化过程通常包含大约50到100个Timestep。随着迭代步数的增加，Latent Feature（潜在特征）的质量逐步提升，表现为纯噪声的减少以及图像和文本语义信息的增加。这一过程确保了生成图像的高质量和与输入文本的高度一致性。

在U-Net网络和Schedule算法完成任务后，SD模型会接收经过优化迭代的潜在特征（Latent Feature），并将其输入到变分自编码器（VAE）的解码器部分，以便将这些潜在特征重建为像素级的图像。

槿墨AI

产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识，深入业务场景，精确捕获用户意图，为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求，欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言

参考资料：

1.High-Resolution Image Synthesis with Latent Diffusion Models

2.https://zhuanlan.zhihu.com/p/632809634

3.https://blog.csdn.net/weixin_47748259/article/details/135541372?spm=1001.2014.3001.5501

4.https://jarod.blog.csdn.net/article/details/129280836?login=from_csdn

http://mp.weixin.qq.com/s?__biz=MzkwMjY0ODMwNA==&mid=2247487422&idx=1&sn=1a4b1e32a3f43d4fd74cd334a76fe95f

槿墨AI

开启探索人类未来命运的旅程，拥抱如槿似墨的无限可能。

最新文章

【文生智界】WonderWorld：一图在手，世界我有

【文生智界】介绍一下，Stable Diffusion！文生图的稳定之选

【文生智界】AI将3D建模带入大众视野，创意如何突破技术壁垒？

告别预设剧本，“人生”永无止境：Unbounded

国庆节火遍抖音的AI雷军从何而来——GPT-SoVits

ChatGPT终于变AI搜索引擎了！网页/手机/桌面版同时上线，即将人人可用

7天开发一个AI Agent应用！秘密武器：一体化数据库

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

大模型“投资热”降温，下半场转向“应用落地”

POINTS多模态大模型亮相：微信团队打造，高效简洁性能强

港大最新开源LightRAG：更快、更强、更经济的RAG系统

AIGC丨ChatGPT的流式输出技术SSE实践！

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

切，这玩意儿不就是一眼 AI …… 吧？

字节：不做眼镜做耳机，揭秘Ola Friend核心技术

YOLO11：重新定义性能极限！对比YOLO8如何？

H100价格大跌！GPU供需失衡，真过剩？

大语言模型垂直领域融合的最优解：微调or检索增强生成?

长文本、语音、视觉全覆盖，中国移动抬上大招：九天善智！

李飞飞「数字表兄弟」破解机器人训练难题！零样本sim2real成功率高达90%

LLM（大语言模型），我们距离应用还差什么？

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

诺贝尔物理和化学奖都颁给了AI，意味着什么？

双向奔赴！什么是大模型和数据库的双向赋能？

Meta首款多模态Llama 3.2开源！1B羊驼宝宝，跑在手机上了

RT-DETRv3横空出世！探究实时目标检测的尽头

【一手实测】Tripo 2.0：AI 3D生成天花板再拉升！

聊聊3DGS，各应用方向的最新进展是？

李飞飞创业后的首个专访：空间智能是下一个“北极星”

CoT神话破灭，并非LLM标配！三大学府机构联手证实，CoT仅在数学符号推理有用

用AI和宠物闲聊，解锁「毛孩子」语言，铲屎官心动！

Qwen2.5登上全球开源王座！72B模型击败LIama3 405B，轻松胜过GPT-4o-mini

【盘点】AI视觉算法主流部署方式，到底怎么选？

会领路、能聊天，现在的导航已经next level了

深夜空降！OpenAI草莓正式发布，命名o1， GPT-4o被碾压！

对话Qwen2-VL：多模态大模型背后的逻辑

上交大：让代码自动成长！培养你的专属宝可梦

PyTorch官宣去CUDA推理！Triton时代来了

FairMOT：解锁复杂环境下多目标跟踪的难题！

Cursor：开发者的新质生产力，人人都是程序员？

机器人身穿衣服做家务，逼真到被质疑是人类套壳

大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

【深度解读】政务大模型的产业图谱、企业布局与落地应用

又创新？U-KAN：专注图像边界细节优化的网络架构！

AI开启“城市漫步”，这Citywalk够不够贴心！

【梳理】主流推荐算法：如何让AI更精准地“猜你喜欢”？

Midjourney地位不稳？AI绘图又一黑马出现，附4款产品一手实测

实测！30秒即可生成工业级Mesh，媲美人工建模？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉