AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频识别转字幕功能来啦！

科技科技 2022-10-15 10:30 山东

「本期内容标签」

安卓 iOS 电脑 小程序 网站 游戏教程

好久没更新了，本周V4.1带来了非常多的功能，主要是Stable Diffusion动画、Dream Booth训练以及音视频转字幕功能。

V4.1版本：2022-10-13

1、Stable Diffusion（下面简称SD）作画功能支持2D动画功能（支持参考图模式，选择参考图，即可以参考图引导动画帧生成；支持三轴移动、缩放、角度调整等）、参考视频功能，动画模式2D输入描述支持帧数设置，如下换行描述（三个冒号后面跟着帧序号）：

a:::10

b:::20

c:::30

代表，a描述有10帧，b描述20帧。。。。

2、加入Dream Booth模型训练功能，CPU和显卡两种方式都可以，显卡目前24G显存可以，CPU训练内存32G以上估计就可以；鼠标悬停训练参数旁边的问号有参数解释；训练完成后会自动在模型目录对11GB大小的模型进行裁剪到2GB大小；支持DB断点模型选择；模型名字显示步数；

3、SD作画增加局部修改功能，点击局部修改按钮，对图片继续涂鸦，即可局部修改，不过此功能效果有些图片有限；

4、SD文字描述支持负描述，所谓负描述就是不想让画面出现的元素；

5、SD支持调用第三方的ckpt格式的SD模型，SD参数设置下方选择自定义模型按钮即可；

6、SD支持图片仿造功能，不过需要至少16G显存，SD参数设置最下方，选择待仿造图片，无需描述，即可生成类似风格图片；

7、SD作画16代显卡黑图问题修复，SD设置里勾选16代即可；

8、伴奏人声分离4G显卡可以用了，伴奏人声分离设置勾选低显存占用模式即可；

9、加入音视频转文字功能，批量选择音视频，即可生成srt字幕文件和纯文字txt版文件，支持大量国外语言；

10、修复图片转3D找不到图片的报错问题；

11、修复图片高清放大、老照片修复，DD或SD作画写到图片的配置丢失问题。

软件概览

软件名字叫做：AI作画离线版V4.1(基于Disco Diffusion 5.6与Stable Diffusion 1.4），基于GitHub上的开源项目Disco Diffusion与Stable Diffusion。

如下，软件主界面，还是以操作简单为主：

▼

软件安装

软件非常大，因为有很多离线模型，下载完成后，按照网盘里的pdf教程即可进行体验。

软件界面如下所示：

▼

软件功能介绍

功能一：DD(Disco Diffusion)作画

软件目录文件夹的settings.json就是作图配置文件，当然离线版本可通过界面进行设置了。

1、描述词设定：描述词之前手动修改json文件经常有小伙伴少输入标点导致出错，界面化可以避免这个问题，如下默认的描述，每段（回车换行算一段）都是同一描述的不同权重关键词。

▼

上面的描述对应的手动修改json如下，也就是界面化无需引号、逗号来分割同一描述的不同权重部分。

▼

队列模式下的描述词设定：当如下勾选了队列模式后，通过固定的句式，可以生成大量的配置文件，也就可以实现生成多套参数的图。

▼

比如我的文字描述这样描述：a beautiful girl by {400|1|艺术家}，当点击保存设置后就会生成400个艺术家的不同配置文件。

注意这个格式{400|1|艺术家}中的{}、|这些不能缺少，完全按照固定格式来，400代表生成400个配置文件，1代表by一个艺术家名字（如果设置成2就代表by两个艺术家名字混搭），艺术家代表的是软件目录下【描述风格库】文件夹下的艺术家.csv文件，而艺术家.csv文件如下所示，两列数据：

▼

软件支持各位自建这种语料库，大家可以复制csv建立副本，然后在副本里修改，注意也是按照两列格式来，第一列是描述，第二列是解释。比如下面我建的颜色.csv文件，简单写了一下，也是一定严格两列来哈，且都放在软件目录下的【描述风格库】文件夹。

▼

2、帮助相关：对于大多数参数，都加入了帮助按钮，鼠标划到对应帮助图标，驻留即可显示参数含义，如下所示，当然大多数都是翻译的官方文档，加入自己的一点注解。

▼

如果想要加入自己对参数的注释，可以修改软件目录下的tip.json，如下对应的描述修改即可，\n为换行。

▼

3、参考图：参考图也人性化了，直接点击按钮选择图片即可，注意看参数旁边的问号，一般加入参考图时，skip_steps这个参数需要设置大一些。

▼

参考图的可玩性很高，比如下面的图都是基于参考图，用的自定义模型人像1.5，AI继续绘制的，有的图我也不用贴上参考图了吧：

▼

队列模式下的参考图：当如下勾选了队列模式后，可以批量选择多张参考图，可以生成大量的配置文件，也就可以实现生成相同参数但参考图不同的图。

▼

4、AI作画模型选择：参数设置里提供两种绘图Diffusion模型引擎选择，原版DD、像素版DD以及其他自定义的PT格式模型，如下图设置：

▼

像素模式作画引擎也可以试试，如下就是像素风格的图，也挺有意思：

▼

自定义模型比如选择国画风或者人像的PT模型文件，然后保存设置即可。

▼

如下演示的是国画模型和人像1.5模型的测试样图：

▼

5、扩散模型训练：上面的自定义模型，诸如人像和国画都可以通过训练来实现，如下点击自己训练Diffusion模型按钮即可打开训练设置界面，4.1版本支持在原来的模型基础上继续训练，支持训练多少步停下训练，具体操作可以看视频：https://www.bilibili.com/video/BV1Ca411S71s。

▼

6、提前终止作画：当作画步数超过5步时，点击提前终止按钮即可终止作画，如下动图所示：

▼

7、导入配置：支持导入图片输出目录images_out文件下的DD作画json配置文件或者生成的图片，如下点击导入配置按钮即可：

▼

默认写入作图参数到输出图片中，考虑到隐私问题，软件支持去掉此功能，如下去掉勾选即可：

▼

8、AI图片描述解析：如下按钮点击，选择图片，稍等片刻即可显示出描述，当然这个描述有所出入，但当作描述来用画出的图也确实不错。

▼

下面演示几张图，解析出来的描述：

a couple of people riding bikes down a road, a matte painting by Makoto Shinkai, featured on pixiv, rayonism, official art, anamorphic lens flare, matte painting

▼

a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

▼

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

▼

a painting of a man with flowers in his lap, an ultrafine detailed painting by Albert Swinden, pexels, metaphysical painting, creative commons attribution, chalk art, detailed painting

▼

功能二：SD(Stable Diffusion)作画

SD作画功能和DD功能基本一致，同样支持队列模式、参考图等功能，SD作画速度更快，且画的更加具象，下面主要介绍SD的参数设置。

同样SD也是具有文字描述和参考图功能，还有一些其他参数，大家可以鼠标悬停到参数旁边的问号就会有说明。

▼

1、描述词设定：描述词句式基本和DD一样，但SD作画多了个负描述，负描述默认可以不写，负描述如果写，就代表不想让绘画结果出现的元素。

▼

2、绘图参数：图片尺寸和DD一样，需要64的倍数，当然随便填写尺寸也行，软件会自动转换；绘图步数和DD类似，不过SD步数50就够了，多了没啥意义；绘制图片轮数代表每次画几张图；描述相关度默认数值就可以，当然可以尝试10以上数值；随机种子默认0，代表每次种子随机，设置大于零的固定值，如果其他参数一样，则SD出图完全一样，这点和DD不一样哈。

▼

3、显存占用模式选择：软件提供不同显存占用模式：适中、低、很低、非常低、高和极高几种模式，其中非常低可以实现4G显存画出1024×1024极限尺寸，当然速度也比较慢，且至少需要16G内存；而高可以实现自适应显存占用，速度比较均衡。

▼

4、16代黑图问题：针对GTX 16系列，诸如1660等显卡，SD作画会黑图，需要勾选如下选项，可以正常出画。

▼

5、参考图：和DD一样，SD也支持参考图，不过参数比较简单，基本上就是导入原图，修改描述，设置图片差异度参数即可，注意差异度参数范围0-1，1代表与参考图差异最大哈。

▼

如下，试试SD参考图，实现真人参考图用二次元描述实现真人二次元效果：

▼

6、动画：SD动画选择2D，即可开启动画模式，动画也可以设置参考图，支持动画变化角度、缩放大小、xyz轴移位等。

文字描述需要如下格式，每一次换行都是一个过渡描述，每个过渡描述末尾三个冒号后面跟着的数字，代表动画帧数。

▼

SD动画如果选择参考视频，则可以导入视频，实现视频风格转换，参考视频模式下，就和逐帧参考图一个意思了，只是比较便捷。

▼

如下SD动画演示视频：

▼

7、自定义SD模型选择：支持选择第三方ckpt格式的SD模型，如下所示，选择ckpt所在路径即可实现利用第三方ckpt模型作画。

▼

8、图片风格仿造：这个功能需要至少16G显存，无需描述，导入图片即可实现图片仿造，目前仅是个实验功能，效果不是太稳定，如下仿造下面这张图：

▼

如下为仿造的两张图：

▼

9、局部修改：如下点击局部修改按钮，可以实现涂鸦部分区域实现局部修改功能，此功能效果也比较有限，换脸什么的还可以，如下演示：

▼

10、Dream Booth训练：DB训练是非常厉害的一个功能，如下点击打开进入DB训练界面：

▼

DB训练是非常厉害的一个功能，如下点击打开进入DB训练界面，DB实现的功能是学会你训练图片的风格或者相貌。

我来举个例子，我训练图和正则图都选择四张滑稽表情。

▼

然后标识词写做huaxiaoji，项目名随便写我来举个例子，我训练图和正则图都选择四张滑稽表情；训练设备支持CPU（需要16G内存，挺慢）和显卡（需要24G显存），模型尺寸256和512选择，我选择256就不错，后面参数是ckpt模型保存及训练停止步数，一般400-800步效果不错。

▼

训练完后，在模型输出目录找到ckpt文件，然后SD模型自定义选择这个ckpt文件，正常描述即可，注意描述里带着huaxiaoji标识词，如下都是滑稽模型出的图：

▼

当然参考图也支持哈，人像二次元滑稽化，如下所示：

▼

功能三：图片AI高清放大

设置不同的放大模型和图片放大倍数，高清放大图片输出目录为软件目录\images_out\AI_ultra_HD，当输入的图片尺寸很大时，容易超显存，这时我们修改拼图大小这个参数即可，比如设置拼图大小512时，6G显存选择realesrgan_x4plus模型对1920*1080图片进行4倍放大测试不超显存。

▼

AI高清放大是一个免费的独立功能，如下软件主界面点击高清放大按钮，选择图片（支持批量），即可高清放大图片。

▼

如下，小图经过高清放大的对比效果，二次元和三次元都能胜任。

功能四：老照片修复

如下软件主界面点击老照片修复按钮，选择图片（支持批量），即可高清修复老照片，仅对人像进行高清修复。

▼

如下，经过高清人脸修复对比效果动图演示：

▼

功能五：AI图片转3D

AI图片转3D输出视频目录：软件目录\video；AI图片转3D也是一个独立免费功能，如下参数设置可以设置生成视频时长和摄像头位置（位置一般不改）：

▼

然后，如下软件主界面点击图片转3D，选择图片（支持批量），转换图片成如下的视频形式，这个转换速度较慢，5到30分钟一张图。

▼

基本上就是原作项目介绍的这种效果，一张精图转换成3D的效果，不过相比原作我做了改进，支持原图尺寸大小的视频。

▼

功能六：图片风格仿造

如下点击图片风格仿造按钮，选择图片即可自动出几张风格相近的图，此功能需要至少10GB显存，参数设置可以设置每次仿造图片数。

▼

功能七：二次元生成

如下点击二次元小姐姐生成按钮，即可绘制上百张二次元图片：

▼

如下可在参数设置里，设置各种参数以生成不同类型的二次元小姐姐：

▼

功能八：三次元生成

和二次元生成功能一样，如下点击三次元生成按钮，即可绘制多张三次元全身图：

▼

如下可在参数设置里，设置各种参数以生成不同类型的三次元图片：

▼

功能九：AI写小说

如下点击AI写小说按钮，设置开头，即可续写不同轮数的文字：

▼

点击训练小说，如下可以选择自己的小说语料txt，训练自己的模型：

▼

功能十：伴奏人声分离

如下点击伴奏人声分离按钮，选择歌曲（支持批量），即可自动分离人声、伴奏、鼓点和低音，效果很厉害。

▼

若显存4G及以下，可以如下参数设置勾选低显存占用模式即可：

▼

功能十一：音视频转文字

如下点击音视频转文字按钮，选择音频或者视频，即可进行语音识别，输出字幕和文字版txt文件。

▼

音视频转文字功能，支持很多国家语言，若选择汉语，则不过什么语言的音视频，最终都会自动翻译成中文字幕和txt文件，方便快捷，不过翻译效果有限，最好还是选择原视频语言进行识别。

▼

如下，选取的日文视频演讲识别字幕效果，红框为软件识别自动翻译的字幕：

▼

显卡要求

需要至少3GB显存，且必须是英伟达显卡，AMD、intel等不支持。

各种显存测试参数可参考：https://docs.qq.com/sheet/DTGxSSkNJcnVhV1VP。

激活

软件点击AI作画按钮后，会弹出激活窗设定，按照指示联系我获取激活码即可。

小结

这个项目确实很有意思，唯一的问题就是对显卡要求高，最起码需要英伟达3G及以上显存，AMD等其他显卡不支持，感兴趣的可以体验一下4.1版本了，更详细的作图参数、教程多刷刷B站相关视频即可。

本期内容获取

方式一：百度网盘https://pan.baidu.com/s/1B0g4MPFe_drP_hRjgEnKGg 提取码：95kh

方式二：天翼网盘

https://cloud.189.cn/t/ZZ7vuyZrMvmm (访问码:7dn8)

http://mp.weixin.qq.com/s?__biz=MjM5NDE1NzEwMg==&mid=2247509799&idx=1&sn=d85b5a46d978e21d3ec79ef1be55b469

万能君的软件库

一个每天分享安卓、iOS、电脑、网站、编程等相关干货资源的公众号，奉行“为人民服务，用心原创，授人以鱼不如授人以渔”的政策，希望大家在嘈杂的互联网环境下获得一些有用的知识。

AI文字|图片生成视频（Pyramid Flow）V1.0，可能是最快的开源视频生成项目，10S长视频生成，解压即用！

AI换脸V6.1，ROPE-NEXT未来版，rope换脸直播更加流畅、人脸编辑、背景修复、更详细的参数，不用搭建环境，解压即用

AI音频克隆与推理（GPT-SoVITS-V2）工具V1.0，V2版本效果确实更好，极速克隆TTS音频，不用搭建环境，解压即用

AI作画离线版V8.0，支持FLUX-dev，目前开源最强作画模型，更好的效果，更强的语义理解作画能力！

AI文字生成视频CogVideoX-5B工具V1.0，5G显存可用、6S长视频生成，不用搭建环境，解压即用！

AI一键制作证件照工具 V1.0，任意人像图片，自动更换背景色、批量生成、不同尺寸，不用搭建环境，解压即用！

AI写小说工具 V1.0来啦，网文写作、支持修改、多轮续写，不用搭建环境，解压即用！

AI模仿视频表情（LivePortrait）工具V1.3，解压即用

AI图片换装CAT-VTON工具V1.0，效果更好，速度更快，批量任意人物换任意衣服，不用搭建环境，解压即用！

阿里开源巨作CosyVoice：3s极速克隆音频TTS工具 V1.0，效果确实很好，不用搭建环境，解压即用！

AI图片模仿视频表情（LivePortrait）工具V1.1，解压即用

一张图片实现跳舞视频生成工具来啦

AI作画离线版V7.3，支持Stable Diffusion 3，更强的语义理解作画能力！

文字生成音乐工具V1.0来啦，基于stable-audio-open-1.0，批量文字描述生成音乐，不用搭建环境，解压即用！

ChatTTS离线工具V1.1来啦，固定音色，不限制字数生成音频，不用搭建环境，解压即用！

ChatTTS离线工具V1.0，非常好的文字转音频工具，支持多种音色保存调用，不用搭建环境，解压即用！

AI漫画上色（manga-colorization-v2）小工具V1.0，效果很好很快的漫画上色工具，不用搭建环境，解压即用！

AI换脸V5.7来啦，更新到FaceFusion 2.6.0，修复预批量数字人，修复众多bug，解压即用的免费换脸工具

更优质的软件大全、编程学习就看本文吧，是时候开启新的征程了

AI数字人音频驱动对口型MuseTalk工具V1.0，解压即用

AI图片换装IDM-VTON工具V1.1，任意图片一键换装，解压即用

AI作画离线版V7.2，批量高效节省显存，重绘支持自动分割、XL大模型图生图、更多LORA支持！

AI换脸V5.5来啦，更新到FaceFusion 2.5.2，修复一堆bug，不用搭建环境，解压即用的免费换脸工具

AI文字搜图、搜视频工具离线版V1.0，用文字描述的形式来搜索本地图片和视频，很有创意的工具，不用搭建环境，解压即用！

AI音频克隆&TTS训练推理工具，克隆、唱歌、文字转音频、伴奏去除多合一，解压即用的免费工具

AI换脸V5.2，黑白上色，roop、rope、FaceFusion三合一，解压即用的免费换脸工具

AI自动换装OOTDiffusion小工具V1.1，解压即用

公式识别离线小工具V1.1

批量抠图小工具V1.2，解压即用

AI换脸V5.1，roop、rope、FaceFusion三合一，解压即用的免费换脸工具

AI作画离线版V7.1，不用训练即可生成不同人物风格图、XL turbo一步成图、SVD 1.1来啦！

AI作画离线版V7.0，SVD图片生成视频、LCM秒速出图、极速视频无抖动重绘来啦！

AI作画离线版V6.0，SD XL、文字生成视频、视频无抖动重绘来啦！

AI文案撰写、短视频去水印，这个小程序统统搞定

AI作画离线版V5.2，升级torch 2.0速度更快、清华ChatGLM2、看图聊天、AI文字生成音乐、AI动画来啦！

AI作画离线版V5.1，ControlNet、清华类ChatGPT、抠图、补帧、数字人，一堆功能来啦！

比ChatGPT还早，强推这款国产AI写作神器！

AI训练软件3.0来啦，Lora、DreamBooth、抠图、打标签都支持

AI作画离线版V5.0，苹果电脑也支持啦！

AI作画离线版V5.0，加速几倍作画速度、图片说话功能来啦！

免费伴奏人声分离，就是这个软件了！

YYDS！B站疯传！限时删！！

老照片修复＋上色，就是这个软件了！

AI作画离线版V4.2，自动写描述、二次元TAG解析、图片视频上色功能来啦！

AI作画离线版V4.1，Stable Diffusion动画、Dream Booth训练、音视频识别转字幕功能来啦！

Disco Diffusion AI作画离线版V4.0，Stable Diffusion作画、人声伴奏分离功能，来了！

（待会删）yyds，请低调使用！

Disco Diffusion AI作画离线版V3.11，AI图片逆向解析描述、高清老照片修复功能，来了！

Disco Diffusion AI作画离线版V3.10，小说训练、图片配置导入功能，都来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉