在人工智能领域,赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前,视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。
字节&华师提出统一的多模态生成模型TextHarmony:能够熟练地理解和生成视觉文本图 (a) 说明了不同类型的图像文本生成模型:视觉文本理解模型只能生成文本,视觉文本生成模型只能生成图像,而 TextHarmony 可以生成文本和图像。图 (b) 说明了 TextHarmony 在为各种以文本为中心的任务生成不同模态方面的多功能性。
相关链接
论文链接: https://arxiv.org/abs/2407.16364
代码开源: https://github.com/bytedance/TextHarmony
论文阅读
摘要
在这项工作中,我们提出了 TextHarmony,这是一种统一且通用的多模态生成模型,能够熟练地理解和生成视觉文本。由于视觉和语言模态之间固有的不一致,同时生成图像和文本通常会导致性能下降。
为了克服这一挑战,现有方法依靠特定模态的数据进行监督微调,这需要不同的模型实例。我们提出了 Slide-LoRA,它动态地聚合了特定模态和模态无关的 LoRA 专家,部分解耦了多模态生成空间。Slide-LoRA 在单一模型实例中协调视觉和语言的生成,从而促进了更统一的生成过程。此外,我们开发了一个高质量的图像标题数据集 DetailedTextCaps-100K,并与复杂的闭源 MLLM 合成,以进一步增强视觉文本生成能力。在各种基准上进行的全面实验证明了所提出方法的有效性。
在 Slide-LoRA 的支持下,TextHarmony 仅增加了 2% 的参数,就实现了与特定模态微调结果相当的性能,并且在视觉文本理解任务中平均提高了 2.5%,在视觉文本生成任务中平均提高了 4.0%。我们的工作描述了在视觉文本领域内采用集成方法进行多模态生成的可行性,为后续研究奠定了基础。
方法
TextHarmony 的管道。TextHarmony 通过连接视觉编码器、LLM 和图像解码器来生成文本和视觉内容。提出的 Slide-LoRA 模块通过部分分离参数空间来缓解多模式生成中的不一致问题。
实验
可视化文本生成结果。
可视化文本编辑结果。
DetailedTextCaps-100K 的更多示例。
TextHarmony 视觉文本理解和感知能力的可视化。
结论
TextHarmony是一种多功能多模态生成模型,擅长协调视觉文本理解和生成的不同任务。利用所提出的 Slide-LoRA 机制,TextHarmony 在单一模型实例中同步视觉和语言模态的生成过程,有效地解决了不同模态之间固有的不一致问题。该模型架构擅长执行涉及处理和生成图像、蒙版、文本和布局的任务,特别是在光学字符识别 (OCR) 和文档分析领域。TextHarmony 的成就预示着在视觉文本领域内综合多模态生成模型的巨大潜力。TextHarmony 的适应性表明,类似性质的模型可以有效地应用于各种应用程序,为依赖视觉文本理解和生成复杂相互作用的行业带来革命性的前景。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~