BiGR是一种新型的图像生成模型,它可以生成高质量的图像,同时还能有效地提取图像特征。该方法是通过将图像转换为一系列的二进制代码来工作,这些代码就像是图像的“压缩版”。在训练时会遮住一些代码,然后让模型学习如何根据剩下的代码来填补这些空缺。
BiGR不仅能够生成图像,还能在很多视觉任务中表现良好,比如修复损坏的图像或对图像进行编辑,而这些都无需对模型进行特别的调整。这使得BiGR在图像生成领域非常灵活和高效。
相关链接
论文地址:http://arxiv.org/abs/2410.14672v1
项目主页:https://haoosz.github.io/BiGR
代码链接:https://github.com/haoosz/BiGR
论文介绍
BiGR是一种新颖的条件图像生成模型,使用紧凑的二进制潜在代码进行生成训练,专注于增强生成和表示能力。BiGR可以执行视觉生成、辨别、编辑等。
统一性:BiGR是第一个在同一模型中统一生成任务和判别任务的条件图像生成模型。通过对紧凑的二进制潜在代码进行建模,与现有模型相比, BiGR在两个任务中都表现出色。 效率:BiGR以较低的时间成本生成图像,这归因于迭代揭露过程中所需的少量采样步骤,同时仍保持较高的生成质量。 灵活性:BiGR可以灵活地用于各种视觉应用,例如以零样本方式进行修复、去除修复、编辑、插值和丰富,而无需针对特定任务进行结构更改或参数微调。 可扩展性:BiGR在生成任务和判别任务中都表现出可扩展性,这通过对生成质量和线性探测性能的全面评估得到了证明。
方法
BiGR建立在 Llama 主干之上,结合了掩码标记预测和二进制转码器。BiGR 使用加权二进制交叉熵 (wBCE) 损失进行训练,以重建掩码标记。对于图像生成,我们设计了熵序采样。对于视觉表示,我们只需在中间层应用平均池化。
定量比较
图像生成
零样本广义应用
BiGR支持多种零样本应用,而无需特定于任务的结构更改或参数微调。
实验结果表明,BiGR在生成质量上优于现有模型,尤其是在使用二进制目标和掩蔽建模时。此外还比较了BiGR与最新的自回归生成基线LlamaGen的表现,发现BiGR在生成和判别任务上都展现出更强的能力。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~