10.25-2|文本到图像生成与偏好优化:文生图偏好优化,RankDPO,合成数据集DPO

文摘   2024-10-25 17:18   西藏  

文本到图像生成与偏好优化:文生图偏好优化,RankDPO,合成数据集DPO

Scalable Ranked Preference Optimization for Text-to-Image Generation

2024-10-23|Tübingen AI Center, TUM, Helmholtz Munich, Snap Inc.|🔺11

http://arxiv.org/abs/2410.18013v1
https://huggingface.co/papers/2410.18013
https://snap-research.github.io/RankDPO/

研究背景与意义

在文本到图像生成领域,直接偏好优化(Direct Preference Optimization, DPO)已成为一种强大的方法,旨在通过人类反馈来调整模型。然而,成功应用DPO需要大量资源来收集和标注大规模数据集,例如数百万个带有人类偏好的生成图像对。此外,随着T2I模型的快速发展,这些人类偏好数据集可能迅速过时。

为了解决这些挑战,本文提出了一种可扩展的方法,通过合成数据集来进行DPO训练。具体而言,作者通过预训练的奖励函数生成图像对的偏好,避免了人工标注的需求,从而显著提高了数据集收集的效率。此方法不仅允许在多个模型之间平均预测,还能通过引入RankDPO来增强DPO方法,利用排名反馈改进模型的生成质量。

研究方法与创新

本文提出了两个主要的创新点:合成标注偏好数据集(Syn-Pic)和基于排名的偏好优化(RankDPO)。Syn-Pic通过生成不同T2I模型的图像,并使用多个预训练的奖励模型进行标注,消除了人工标注的需求,从而提高了数据集的收集效率。此外,Syn-Pic通过聚合来自不同模型的偏好评分,构建了一个排名的生成图像列表,允许模型在训练过程中利用更丰富的信号。

RankDPO则利用排名增强的DPO目标,通过引入折扣累积增益(DCG)来优化偏好损失。这种方法确保了生成图像的质量和一致性,促进了更高质量图像的生成。实验结果表明,使用Syn-Pic和RankDPO的模型在多个基准测试中表现出显著的性能提升,尤其在生成图像的美学和文本对齐方面。

实验设计与结果分析

本文通过大量实验验证了所提出方法的有效性。首先,使用Syn-Pic生成的240K图像在SDXL和SD3-Medium模型上进行训练,结果显示这些模型在多个基准数据集(如GenEval、T2I-Compbench和DPG-Bench)上均取得了显著的性能提升。例如,SDXL模型在GenEval数据集的平均得分从0.55提升至0.61,而SD3-Medium模型的得分从0.70提升至0.74。此外,在用户研究中,RankDPO的生成图像在视觉质量和文本对齐方面的用户满意度显著高于传统方法。

结论与展望

本文提出的合成标注偏好数据集和基于排名的偏好优化方法,为文本到图像生成模型的优化提供了一种有效且经济的解决方案。通过利用合成数据集和排名信号,模型在生成质量和偏好对齐上都取得了显著的提升。

未来的研究可以进一步扩展数据集的多样性,探索如何将偏好优化应用于更广泛的生成任务中,包括提升生成模型的安全性和鲁棒性。


AI研究前瞻
欢迎来到AI研究前瞻 - 您的人工智能研究前沿指南! 我们致力于为您提供最新、最前沿的AI研究论文解读和分析,并以通俗易懂的方式呈现其核心思想和潜在影响。 一起探索AI的无限可能,共同见证人工智能改变世界的每一步!
 最新文章