Glyph-ByT5-v2,支持10国语言图文海报生成,效果惊艳!

文摘   2024-11-14 00:02   江苏  

清华&北大&微软&利物浦大学联合提出Glyph-ByT5-v2这款工具支持多语言图文生成,包括英语、中文、日文、韩文、法文、德文、西班牙文、意大利文、葡萄牙文和俄文。

以下分别展示中、英、日、韩图文的视觉文本结果一起带大家感受一下。

相关链接

论文地址:https://arxiv.org/abs/2406.10208

项目地址:https://github.com/AIGText/Glyph-ByT5

模型下载:https://huggingface.co/GlyphByT5/Glyph-SDXL-v2

试用链接:https://huggingface.co/spaces/GlyphByT5/Glyph-SDXL-v2

论文阅读

摘要

最近,Glyph-ByT5 在平面设计图像中实现了高精度的视觉文本渲染性能,但它仍然只专注于英语,在视觉吸引力方面表现相对较差。在这项工作中,我们通过推出 Glyph-ByT5-v2 解决了这两个根本限制,它不仅支持 10 种不同语言的精确视觉文本渲染,而且实现了更好的美学质量。

为实现这一目标,我们做出了以下贡献:

  • 创建一个高质量的多语言字形文本和图形设计数据集,包含超过 100 万个字形文本对和 1000 万个图形设计图像文本对,涵盖其他 9 种语言;
  • 构建一个由 1,000 个提示组成的多语言视觉段落基准,每种语言 100 个提示,以评估多语言视觉拼写准确性;
  • 利用最新的步骤感知偏好学习方法来提高视觉美学质量。

通过结合这些技术,我们提供了功能强大的定制多语言文本编码器 Glyph-ByT5-v2 和功能强大的美观图形生成模型 Glyph-SDXL-v2,它们可以支持 10 种不同语言的准确拼写。考虑到最新的 DALLE-3 和 Ideogram 仍然难以完成多语言视觉文本渲染任务,我们认为我们的工作是一项重大进步。

提高多语言视觉文本渲染精度

上表描述了多语言可视化文本呈现结果。通过我们的方法实现了不同数量的角色。性能通过评估字级精度来证明对于上面列出的七种语言和字符级精度对于下面列出的三种语言。所有结果都基于单一模型,而不是为每种语言量身定制的多个模型。

提高美学品质

用户研究结果

用户研究结果显示,图形设计图像在多语言视觉文本拼写准确性、布局质量和视觉美学方面的胜率均由人类评估者偏好进行评估

效果展示

下图展示了在训练后应用步进感知偏好优化 (SPO) 的效果。按顺序显示由以下方法生成的图像:第一行是 Glyph-SDXL,第二行是 Glyph-SDXL Albedo,最后一行是 Glyph-SDXL Albedo + SPO。

下图展示了利用DALL·E3和Ideogram 1.0实现多语言生成结果的可视化。

更多效果展示

结论

在本文中,我们提出了一种改进的定制多语言文本编码器,用于精确的多语言视觉文本渲染。我们构建了可扩展的高质量多语言字形文本和图形设计数据集,从而能够训练我们的模型 Glyph-ByT5-v2 和 Glyph-SDXL-v2。我们通过经验表明,用针对人类偏好优化的后训练版本替换原始 SDXL 可以显著增强视觉美感。通过详细的比较和用户研究证明了我们方法的有效性。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章