文本与图像生成评估:交错文本-图像生成评估,场景图结构,一致性评估
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment
2024-11-26|U Washington, HUST, University of Notre Dame|🔺18
http://arxiv.org/abs/2411.17188v1
https://huggingface.co/papers/2411.17188
https://interleave-eval.github.io
研究背景与意义
在当今多模态生成模型的快速发展背景下,用户期望模型能够同时生成文本和图像,以满足日常查询的需求。例如,用户询问“如何制作蛋炒饭”时,理想的回答不仅包含文字步骤,还应附有相应的图像。这种需求促使研究者们探索如何有效地生成交错的文本和图像内容。然而,现有的模型在保证不同模态之间的一致性方面面临挑战。因此,本文提出了“交错场景图”(ISG)作为一个全面的评估框架,以解决这些挑战。
ISG框架的核心在于利用场景图结构捕捉文本和图像块之间的关系。通过对生成结果进行多层次的评估,ISG能够为交错生成的内容提供细致的反馈。这不仅提升了生成内容的质量,也为用户提供了更为直观的解答方式。此外,本文还构建了一个名为ISG-BENCH的基准数据集,包含1150个样本,涵盖8个类别和21个子类别,旨在有效评估模型在视觉中心任务上的表现。
研究方法与创新
ISG框架的创新之处在于其对交错生成的评估方法。该框架将用户查询解析为一个类似场景图的结构,其中文本和图像块作为节点,二者之间的关系则作为边。ISG提出了四个层次的评估协议:整体评估、结构评估、块级评估和图像评估。每个层次都生成一系列问题-答案对,用于评估生成内容是否符合用户的要求。具体而言:
整体评估:该层次评估生成内容的整体一致性和质量,确保生成的文本和图像能够有效对应用户的查询。 结构评估:分析生成内容是否遵循用户指定的结构要求,例如生成的图像和文本的顺序。 块级评估:对每个文本或图像块进行细致评估,确保其内容的准确性和相关性。 图像评估:专注于评估生成图像的语义内容,确保其符合用户的预期。
通过这些创新的评估方法,ISG能够提供更为精细和系统的反馈,为后续的模型改进提供了重要的理论基础。
实验设计与结果分析
在实验设计方面,研究者们利用ISG-BENCH对九种可访问的交错文本和图像生成方法进行了评估,比较了传统统一模型与组合框架的性能。实验结果显示,当前的统一模型在指令遵循和生成质量方面均存在显著不足,而组合框架在生成高质量多模态内容方面表现更佳。例如,组合框架在整体评分上平均达到了6.262,而最佳的统一模型仅为2.961。
此外,ISG-AGENT作为一个基线智能体,通过“计划-执行-优化”的流程,显著提升了生成内容的质量,整体评分达到了6.262,结构准确性高达0.871。这一结果表明,ISG-AGENT在生成一致的交错内容方面具有显著优势,为未来的多模态内容生成奠定了基础。
结论与展望
本研究的贡献在于提出了一种新的评估框架ISG,能够有效解决多模态生成中的一致性问题,并为未来的研究提供了新的思路。尽管当前的模型在生成交错内容方面还存在不足,但通过ISG的评估方法,研究者能够更清晰地识别出模型的局限性及改进方向。未来的工作可以集中在优化模型架构和提升生成内容的质量上,以满足用户日益增长的需求。