CogView-3-Plus是在CogView3(ECCV'24)基础上开发的图像生成模型,采用了最新的DiT框架以提升整体性能。该模型引入了零信噪比扩散噪声调度和联合文本-图像注意力机制,相较于传统的MMDiT结构,在保持基本能力的同时有效降低了训练和推理成本,并使用潜在维度为16的变分自编码器(VAE)。
参考:
https://github.com/THUDM/CogView3
点个分享、点赞与在看,你最好看~
CogView-3-Plus是在CogView3(ECCV'24)基础上开发的图像生成模型,采用了最新的DiT框架以提升整体性能。该模型引入了零信噪比扩散噪声调度和联合文本-图像注意力机制,相较于传统的MMDiT结构,在保持基本能力的同时有效降低了训练和推理成本,并使用潜在维度为16的变分自编码器(VAE)。
参考:
点个分享、点赞与在看,你最好看~