CogView-3-Plus发布:基于DiT框架的高效图像生成模型

文摘   2024-11-03 07:45   福建  

CogView-3-Plus是在CogView3(ECCV'24)基础上开发的图像生成模型,采用了最新的DiT框架以提升整体性能。该模型引入了零信噪比扩散噪声调度和联合文本-图像注意力机制,相较于传统的MMDiT结构,在保持基本能力的同时有效降低了训练和推理成本,并使用潜在维度为16的变分自编码器(VAE)。


参考:

  1. https://github.com/THUDM/CogView3



点个享、点赞在看,你最好看~


Halo咯咯
专注于技术知识整理,包含人工智能、大模型、机器学习、深度学习、大数据等多个领域的技术知识,以及各种开源的内容~
 最新文章