AI作画离线版V5.2,升级torch 2.0速度更快、清华ChatGLM2、看图聊天、AI文字生成音乐、AI动画来啦!

科技   科技   2023-07-12 20:15   山东  

「本期内容标签」

安卓 iOS 电脑 小程序 网站 游戏 教程

本月V5.2带来了非常多的功能,主要是清华大学类chatGLM2、VisualGLM、AI文字生成音乐、SD动画等功能。

V5.2版本:2023-5-18

(V5.2版本仅支持win10、win11)

1、chatglm修改为chatglm2代; 

2、同步更新最新的facebook开源的文字生成音乐项目audiocraft,支持30s以上时长不失真生成,支持批量选择音频和设置描述; 

3、图片说话音频驱动功能与官方同步最新,效果更好; 

4、SD模型融合、局部修改模式bug修改完成; 

5、支持常见宽高比设置; 

6、支持导入webui图片的参数,导入配置文件里选择图片即可自动填充到软件参数设置框里; 

7、SD动画支持提前终止、保存与读取配置、预览等功能,修复3D模式断网不能使用的bug; 

8、升级到pytorch2.0 CUDA11.8和xformers0.0.17,极高+xformers模式下,速度更快,显存占用更少; 

9、清华ChatGLM更新到最新模型,模型包提供6G、8G、13G显存模型包,按照自己显存下载对应模型包即可; 

10、SD动画支持到deforum stable diffusion 0.7版本,参数更为详尽,动画模式记得描述如下格式:

10:::a 

20:::b 

40:::c 

a、b、c为三个子描述,回车换行,三引号前面的数字为描述开始帧,比如描述b是从20-39帧; 

11、修复视频补帧某些用户不可用bug; 

12、修复视频转文字大模型下,长时间无说话人转换慢的问题; 

13、修复40系列显卡,伴奏分离和清华chatglm不能使用的bug; 

14、输出目录按钮整合成一个菜单。

01

软件概览

软件名字叫做:AI作画离线版V5.2,基于GitHub上的开源项目Disco Diffusion与Stable Diffusion以及众多开源项目

如下,软件主界面,还是以操作简单为主:


02

软件安装

软件非常大,因为有很多离线模型(模型按照功能划分,可按需下载),下载完成后,按照网盘里的pdf教程即可进行体验

软件界面如下所示:

03

软件功能介绍

功能一:DD(Disco Diffusion)作画

1、描述词设定如下默认的描述,每段(回车换行算一段)都是同一描述的不同权重关键词。

队列模式下的描述词设定:当如下勾选了队列模式后,通过固定的句式,可以生成大量的配置文件,也就可以实现生成多套参数的图。

比如我的文字描述这样描述:a beautiful girl by {400|1|艺术家},当点击保存设置后就会生成400个艺术家的不同配置文件。

注意这个格式{400|1|艺术家}中的{}|这些不能缺少,完全按照固定格式来,400代表生成400个配置文件,1代表by一个艺术家名字(如果设置成2就代表by两个艺术家名字混搭),艺术家代表的是软件目录下【描述风格库】文件夹下的艺术家.csv文件,而艺术家.csv文件如下所示,两列数据:

软件支持各位自建这种语料库,大家可以复制csv建立副本,然后在副本里修改,注意也是按照两列格式来,第一列是描述,第二列是解释。比如下面我建的颜色.csv文件,简单写了一下,也是一定严格两列来哈,且都放在软件目录下的【描述风格库】文件夹。


2、帮助相关对于大多数参数,都加入了帮助按钮,鼠标划到对应帮助图标,驻留即可显示参数含义,如下所示,当然大多数都是翻译的官方文档,加入自己的一点注解。

3、参考图参考图也人性化了,直接点击按钮选择图片即可,注意看参数旁边的问号,一般加入参考图时,skip_steps这个参数需要设置大一些

4、AI作画模型选择参数设置里提供两种绘图Diffusion模型引擎选择,原版DD、像素版DD以及其他自定义的PT格式模型,如下图设置:

如下演示的是国画模型:

5、AI图片描述解析:如下按钮点击,选择图片,稍等片刻即可显示出描述,当然这个描述有所出入,但当作描述来用画出的图也确实不错。

下面演示几张图,解析出来的描述:

a group of iron man standing next to each other in the ocean, a comic book panel by Paul Pelletier, featured on deviantart, antipodeans, marvel comics, reimagined by industrial light and magic, imax

a painting of a landscape with mountains and trees, a detailed matte painting by Katsukawa Shunsen, pixiv, shin hanga, ukiyo-e, matte painting, detailed painting

功能二:SD(Stable Diffusion)作画

SD作画功能和DD功能基本一致,同样支持队列模式、参考图等功能,SD作画速度更快,且画更加具象,下面主要介绍SD的参数设置

同样SD也是具有文字描述和参考图功能,还有一些其他参数,大家可以鼠标悬停到参数旁边的问号就会有说明。

1、描述词设定描述词句式基本和DD一样,但SD作画多了个负描述,负描述默认可以不写,负描述如果写,就代表不想让绘画结果出现的元素。

支持写个开头,然后如下点击AI生成描述进行续写描述,目前有两种自动写描述引擎了:

2、绘图参数图片尺寸和DD一样,需要64的倍数,当然随便填写尺寸也行,软件会自动转换;绘图步数和DD类似,不过SD步数20就够了;绘制图片轮数代表每次画几张图;描述相关度默认数值就可以,当然可以尝试10以上数值;随机种子默认0,代表每次种子随机,设置大于零的固定值,如果其他参数一样,则SD出图完全一样,这点和DD不一样哈。

3、显存占用模式选择软件提供不同显存占用模式:超级低、非常低、高、极高,以及带着xformers加速模块模式,加速模块效果拔群,速度很快,显存占用也低了很多。

4、16代黑图问题针对GTX 16系列,诸如1660等显卡,SD作画会黑图,需要勾选如下选项,可以正常出画。

5、参考图和DD一样,SD也支持参考图,不过参数比较简单,基本上就是导入原图,修改描述,设置图片差异度参数即可,注意差异度参数范围0-1,1代表与参考图差异最大哈。另外,自适应尺寸比较人性化,比如参考图尺寸宽高为1024x512,绘图参数尺寸设置512×512,默认无,代表不自适应,最终出的图尺寸为512×512,固定宽代表,以绘图参数尺寸设置的宽512为准,参考图宽高比2比1,高自动修改为256,最终输出512x256的图。

如下,试试SD参考图,实现真人二次元效果或者其他的一些效果:

6、动画SD动画选择2D,即可开启动画模式,动画也可以设置参考图,支持动画变化角度、缩放大小、xyz轴移位等。

文字描述需要如下格式,每一次换行都是一个过渡描述,每个过渡描述开头数字,代表动画帧数,比如第一行就是前10帧a描述。

10:::a 

20:::b 

40:::c 

如下SD动画演示视频:

7、SD、LORA、VAE模型选择支持选择第三方ckpt、safetensors格式的SD模型、VAE模型以及LORA模型(还支持Lycoris类的LORA模型),如下所示:

8、局部修改如下点击局部修改按钮,可以实现涂鸦部分区域实现局部修改功能,此功能效果也比较有限,换脸什么的还可以,如下演示:


9、模型融合点击SD模型融合按钮,如下支持不同ckpt或者safetensors格式的SD模型按照比例融合,融合后的模型兼具两个模型的特点。

10、DeepDanbooru二次元TAG解析如下点击按钮,支持二次元图片的TAG解析,诸如NovelAI等模型比较有需求:

功能三:CN作画

CN就是目前大名鼎鼎的ControlNet,目前软件同步到CN 1.1版本,总体使用方式和SD差别不大。

CN的精髓在于下图,不同的这些模型:

这些模型的作用就是针对不同的参考图进行创作,诸如Lineart模型就是针对线稿参考图,然后实现线稿上色或者二次创作的目的,如下演示,选择Lineart_Anime这个二次元线稿的CN模型配上二次元SD模型和描述:

如下选择openpose这个人体姿势的CN模型,左图为原图,中间为识别原图的骨骼图,图为生成的图。

如下SEG语义分割的CN模型效果:

如下MLSD这种识别建筑线稿的CN模型效果:

如下为超分辨率的Tile的CN模型,真的是模糊图重绘神器:

功能四:T2I作画

T2I作画和ControlNet实现的结果基本相似,套路也是一样,如下也是提供众多模型:

在这里就不做重复演示了,如下官方的介绍图:

功能五:图片/视频AI高清放大

设置不同的放大模型和图片放大倍数,高清放大图片输出目录为软件目录\images_out\AI_ultra_HD,当输入的图片尺寸很大时,容易超显存,这时我们修改拼图大小这个参数即可,比如设置拼图大小512时,6G显存选择realesrgan_x4plus模型对1920*1080图片进行4倍放大测试不超显存。支持2-10倍放大。

AI高清放大是一个独立功能,软件主界面图片处理菜单选择图片/视频高清放大选项,选择图片或者视频支持批量,即可高清放大图片或者视频。

如下,小图经过高清放大的对比效果,二次元和三次元都能胜任。

功能六:老照片修复

软件主界面图片处理菜单选择老照片修复选项,选择图片(支持批量),即可高清修复老照片,仅对人像进行高清修复。

如下,经过高清人脸修复对比效果动图演示:

功能七:图片/视频上色

软件主界面图片处理菜单选择图片/视频上色,选择黑白视频或者图片即可实现上色,支持批量。

如下参数设置里,可以选择不同上色模型,二次元模型专注二次元线稿上色:

如下动图演示,上色前后的效果:

功能八:图片说话

图片说话功能,可以实现导入的图转换成说话人视频的形式,支持音频和视频驱动,默认音频驱动说话。

软件主界面点击图片处理菜单选择图片说话,选择图片(支持批量),转换图片成如下的视频形式。

功能九:AI图片转3D

AI图片转3D输出视频目录:软件目录\video;AI图片转3D也是一个独立免费功能,如下参数设置可以设置生成视频时长和摄像头位置(位置一般不改):

软件主界面图片处理菜单选择图片转3D,选择图片(支持批量),转换图片成视频形式,这个转换速度较慢,5到30分钟一张图。

基本上就是原作项目介绍的这种效果,一张精图转换成3D的效果,不过相比原作我做了改进,支持原图尺寸大小的视频

功能十:抠图

软件主界面图片处理菜单选择抠图,选择图片(支持批量),即可进行背景和人物分割,如下演示

功能十一:二次元生成

软件主界面图片处理菜单选择二次元生成,即可绘制上百张二次元图片:

如下可在参数设置里,设置各种参数以生成不同类型的二次元小姐姐:

功能十二:三次元生成

软件主界面图片处理菜单选择三次元生成,即可绘制上百张三次元图片:

如下可在参数设置里,设置各种参数以生成不同类型的三次元图片:

功能十三:AI写小说

软件主界面小说聊天菜单选择AI写小说|聊天界面如下点击AI写小说按钮,设置开头,即可续写不同轮数的文字:

点击训练小说,如下可以选择自己的小说语料txt,训练自己的模型:

还支持清华大学Chatglm2,注意这个至少需要6G显存,且加载模型较慢,请耐心等待,可以实现类似Chatgpt的形式:

还支持清华大学Visualglm,上传图片,用图描述形式,如下演示:

功能十四:伴奏人声分离

软件主界面音视频处理选择伴奏人声分离,选择歌曲(支持批量),即可自动分离人声、伴奏、鼓点和低音,效果很厉害。

若显存4G及以下,可以如下参数设置勾选低显存占用模式即可:

功能十五:音视频转文字

软件主界面音视频处理选择音视频转文字,选择音频或者视频,即可进行语音识别,输出字幕和文字版txt文件。

音视频转文字功能,支持100多个国家语言,若选择汉语,则不过什么语言的音视频,最终都会自动翻译成中文字幕和txt文件,方便快捷,不过翻译效果有限,最好还是选择原视频语言进行识别。

5.2版本大模型(int8)模式仅需要4-5G显存,速度快4倍,效果也很好。

如下,选取的日文视频演讲识别字幕效果,红框为软件识别自动翻译的字幕:

功能十六:视频补帧

软件支持视频2-16倍补帧,这个效果也是很不错的,如下参数设置进行设置参数即可:

点击音视频处理菜单的视频补帧选项,选择要补帧的视频即可,补帧效果就是如下这种效果,原理是AI计算相邻两帧,然后脑补出中间大量帧:

功能十七:AI文字生成音乐

AI作画是文字生成图画,那么音乐也可以,如下参数设置支持文字生成音频设置,支持批量输入(换行),支持参考音频,然后保存设置后,主界面音视频处理菜单下的文字生成音乐即可生成音乐。

04

显卡要求

需要至少2GB显存,且必须是英伟达显卡,AMD、intel等不支持。

各种显存测试参数可参考:https://docs.qq.com/sheet/DTGxSSkNJcnVhV1VP。

05

小结

这个项目确实很有意思,唯一的问题就是对显卡要求高,最起码需要英伟达2G及以上显存,AMD等其他显卡不支持,感兴趣可以体验一下5.2版本了,更详细的作图参数、教程多刷刷B站相关视频即可。

06

本期内容获取

方式一:百度网盘https://pan.baidu.com/s/1B0g4MPFe_drP_hRjgEnKGg 提取码:95kh

方式二:天翼网盘

https://cloud.189.cn/t/ZZ7vuyZrMvmm (访问码:7dn8)  

方式三:123网盘(速度挺快)

https://www.123pan.com/s/H3GRVv-pjFLh.html 提取码:JSsP











万能君的软件库
一个每天分享安卓、iOS、电脑、网站、编程等相关干货资源的公众号,奉行“为人民服务,用心原创,授人以鱼不如授人以渔”的政策,希望大家在嘈杂的互联网环境下获得一些有用的知识。
 最新文章