NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

科技 2024-10-30 22:00 广东

↑ 点击蓝字关注极市平台

作者丨PaperWeekly

来源丨PaperWeekly

编辑丨极市平台

极市导读

字节跳动与华东师范大学联合提出的TextHarmony模型，这是一个统一的多模态文字理解与生成大模型，它通过创新的Slide-LoRA技术和两阶段训练方法，有效地解决了多模态生成中的模态不一致问题，并在视觉文本感知、理解、生成和编辑方面展现出卓越性能。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

01 研究背景与挑战

在人工智能领域，赋予机器类人的图像文字感知、理解、编辑和生成能力一直是研究热点。目前，视觉文字领域的大模型研究主要聚焦于单模态生成任务。尽管这些模型在某些任务上实现了统一，但在 OCR 领域的多数任务上仍难以达成全面整合。

例如，Monkey 等视觉语言模型（VLM）擅长文字检测、识别和视觉问答（VQA）等文本模态生成任务，却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之，以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此，OCR 领域亟需一个能够统一多模态生成的大模型。

论文链接：

https://arxiv.org/abs/2407.16364

代码开源：

https://github.com/bytedance/TextHarmony

02 关键问题

2.1 多模态生成的内在矛盾

研究人员发现，多模态生成大模型面临视觉与语言模态之间的固有不一致性，这往往导致模型性能显著下滑。如图所示，在文本生成任务上，多模态生成模型相比单模态生成模型效果降低 5%，在图像生成上降低了 8%。

为应对这一挑战，近期的一些研究采用了特定模态的监督微调，从而分别优化文字生成和图片生成的模型权重。然而，这种方法与统一视觉理解与生成的初衷相悖。

为解决这一难题，字节跳动与华东师范大学的联合研究团队提出了创新性的多模态生成模型——TextHarmony。该模型不仅精通视觉文本的感知、理解和生成，还在单一模型架构中实现了视觉与语言模态生成的和谐统一。

2.2 TextHarmony：突破性贡献

TextHarmony 的核心优势在于其成功整合了视觉文本的理解和生成能力。传统研究中，这两类任务通常由独立模型处理。TextHarmony 通过融合这两大类生成模型，实现了视觉文字理解和生成的同步进行，从而统筹了 OCR 领域的多数任务。

研究表明，视觉理解和生成之间存在显著差异，直接整合可能导致严重的模态不一致问题。具体而言，多模态生成模型在文本生成（视觉感知、理解）和图像生成方面，相较于专门的单模态模型，性能出现明显退化。

数据显示，多模态生成模型在文本生成任务上较单模态模型效果降低 5%，图像生成任务上最高降低 8%。而 TextHarmony 成功缓解了这一问题，其在两类任务上的表现均接近单模态专家模型水平。

03 技术创新

TextHarmony 采用了 ViT、MLLM 和 Diffusion Model 的组合架构：

1. ViT 负责图像到视觉 token 序列的转换。

2. MLLM 处理视觉 token 和文本 token 的交叉序列，输出两类 token：

文本 token 经文本解码器转化为文本输出。
视觉 token 与文本 token 结合，作为 Diffusion Model 的条件指引，生成目标图像。

这种结构实现了多模态内容的全面理解与生成。

3.1 Slide-LoRA：解决方案

为克服训练过程中的模态不一致问题，研究者提出了 Slide-LoRA 技术。该方法通过动态整合模态特定和模态无关的 LoRA（Low-Rank Adaptation）专家，在单一模型中实现了图像和文本生成空间的部分解耦。

Slide-LoRA 包含一个动态门控网络和三个低秩分解模块：

模态特定 LoRA 专家聚焦于特定模态（视觉或语言）的生成任务。
模态无关 LoRA 专家处理跨模态的通用特征。
动态门控网络根据输入特征，灵活调度不同专家的参与度。

● DetailedTextCaps-100K：高质量数据集

为提升视觉文本生成性能，研究团队开发了 DetailedTextCaps-100K 数据集。该集利用闭源 MLLM（Gemini Pro）生成详尽的图像描述，为模型提供了更丰富、更聚焦于视觉和文本元素的训练资源。

3.2 训练策略

TextHarmony 采用两阶段训练方法：

首阶段利用 MARIO-LAION 和 DocStruct4M 等图文对预训练对齐模块和图像解码器，构建基础的文本生成与图像生成能力。
次阶段运用视觉文本的生成、编辑、理解、感知四类数据进行统一微调。此阶段开放 ViT、对齐模块、图像解码器和 Slide-LoRA 的参数更新，以获得统一的多模态理解与生成能力。

04 实验评估

研究者对 TextHarmony 在视觉文本场景下进行了全面评估，涵盖理解、感知、生成与编辑四个维度：

1. 视觉文本理解：TextHarmony 显著优于多模态生成模型，性能接近 Monkey 等专业文字理解模型。

2. 视觉文本感知：在 OCR 定位任务上，TextHarmony 超过了 TGDoc、DocOwl1.5 等知名模型。

3. 视觉文本编辑与生成：TextHarmony 大幅领先于现有多模态生成模型，且与 TextDiffuser2 等专业模型相当。

4.1 文字生成效果对比

4.2 文字编辑效果对比

4.3 文字图像感知与理解可视化

05 总结与展望

TextHarmony 作为 OCR 领域的多功能多模态生成模型，成功统一了视觉文本理解和生成任务。通过创新的 Slide-LoRA 技术，它有效解决了多模态生成中的模态不一致问题，在单一模型中实现了视觉与语言模态的和谐统一。

TextHarmony 在视觉文字感知、理解、生成和编辑方面展现出卓越性能，为复杂的视觉文本交互任务开辟了新的可能性。

这项研究不仅推动了 OCR 技术的进步，也为人工智能在理解和创造方面的发展提供了重要参考。未来，TextHarmony 有望在自动文档处理、智能内容创作、教育辅助等多个领域发挥重要作用，进一步推动人工智能的应用。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉