深度解析Recraft V3：突破文本渲染限制，「文生图」黑马是怎样炼成的？

科技 2024-11-14 12:45 北京

新智元报道

编辑：LRST

【新智元导读】Recraft团队通过结合TextDiffuser-2技术和自训练的大型语言模型，提升了文本到图像渲染的质量和准确性，不过现有模型在处理复杂语言如中文和未明确指定的文本时，仍存在渲染不准确的问题。

在当前的图像生成技术中，文本渲染的能力已逐渐成为衡量其先进性的重要标准。不论是学术界的最新研究还是市场上的先进产品，都在竞相展示其处理复杂文本的能力，这不仅标志着技术的进步，更是成为一种创新的分水岭。

实际上，字图生成技术在多个领域内显示出显著的实用性，例如在设计海报、书籍封面、广告和LOGO等方面，已成为不可或缺的工具。

此外，随着社交媒体和数字营销的兴起，能够快速生成视觉吸引力强的图像变得尤为重要。这些图像往往需要结合富有创意的文本，以更好地与目标观众沟通，从而在短时间内吸引用户注意力，提高品牌识别度。

图1 现有文生图方法的生成结果。Prompt: a cat holds a paper saying text rendering is important

在图1中，我们可以直观地看到文生图模型技术的飞速进步。然而，尽管技术日益成熟，部分方法在处理复杂文本时仍显示出一些局限性。

例如，生成的图像有时会遗漏prompt中的关键词，这可能会影响最终图像的可用性。而像Ideogram和Recraft V3这样的产品在文本渲染方面表现出色。

它们能够更精确地捕捉和呈现文本中的细节和语境，从而生成与输入文本高度匹配的图像。

值得一提的是，Recraft V3作为文生图领域的黑马，已经在Artificial Analysis Text to Image Model Leaderboard上以1172的ELO评分获得了第一名（图2）。Recraft的新模型展示出的质量超过了Midjourney、OpenAI以及其他所有主要图像生成公司的模型。

图2 在文生图排行榜上，Recraft V3排名第一

最近，Recraft团队在其官方网站上分享了其在文本渲染技术方面的一些实现细节。接下来的部分，我将详细分析这些技术细节，探讨Recraft如何实现其出色的文本到图像渲染效果。

图3 早期Recraft 20B模型的文本渲染能力不佳。Prompt:a cat with a sign 'Recraft generates text amazingly good!' in its paws

Recraft团队首先尝试使用早期模型模型Recraft 20B基于prompt “a cat with a sign 'Recraft generates text amazingly good!' in its paws”生成图像，结果发现文本渲染效果不佳（图3）。基于此Recraft团队总结分析了几个关键点：

1. 训练数据的限制：文本到图像的生成模型主要是在包含图像及其对应简要描述的数据集上进行优化的。这些描述通常只涵盖图像的大致内容，而不提供具体细节，尤其是图像中的文字内容。因此，当需要生成包含具体文字的图像时，模型因为缺乏详细的条件或例子而表现不佳。

2. 文本错误的易识别性：人类的大脑对于处理和识别文本非常擅长，因此在图像生成中的任何文本错误都很容易被我们发现。

为了解决图像生成模型在处理图像中的文本问题，Recraft团队采用了一种方法，使用文本布局图作为更详细的输入条件。此策略的灵感来源于TextDiffuser-2论文（图4），该论文提供了有效处理文本表征技术。

图4 Recraft团队采用TextDiffuser-2技术构造两阶段文本渲染框架

论文链接：https://arxiv.org/pdf/2311.16465

在搜集数据的过程中，Recraft团队借鉴了TextDiffuser-2的方法，采用了两阶段生成框架：首先生成文本布局，然后基于这些布局生成图像。

尽管文本布局可以通过使用OCR技术从现有的字图图像中检测获得，Recraft团队发现现有的开源OCR工具难以生成完美的OCR结果，这主要是由于数据分布的差异。

因此，Recraft团队参考了《Bridging the Gap Between End-to-End and Two-Step Text Spotting》论文（图5），开发了一种新的文本检测和识别方法。

图5 Recraft团队采用此论文提取文本layout

论文链接：https://arxiv.org/abs/2404.04624

最终，Recraft团队基于大语言模型训练了两个「双向」的模型：一个模型基于OCR结果生成caption，另一个模型则可以根据用户的prompt生成模型想象的OCR caption，从而完成文本布局的生成。这样的方法有效地提升了生成图像的质量和文本的准确性。

图6 Recraft团队使用OCR模型提取图像的文本layout，采用大语言模型得到caption，并训练另外一个大语言模型由prompt得到layout用于图像生成

在构建文本信息的过程中，Recraft团队采用了TextDiffuser-2的表征方式，每一行文本首先记录了文本的内容，随后通过坐标来指明文本的具体区域。

与TextDiffuser-2不同，Recraft团队使用了三个坐标点来表示文本（图7），使得模型能够支持渲染倾斜的文本。

此外，Recraft团队最终选择了类似ControlNet的架构来渲染白底黑字的图像，用作模型生成的辅助条件。这种方法增加了文本渲染的可控性，允许用户自定义想要渲染的文本区域。这与仅使用prompt作为条件的flux和ideogram方法形成了对比，提供了更高的灵活性和控制度。

图7 Recraft团队采用TextDiffuser-2的表征方式得到文本layout，并将其渲染为图片作为condition进行图像生成

由于Recraft团队开放了测试接口，我对模型进行了一些测试，效果十分惊艳

图8 prompt: a cat holds a paper saying abcdefghijklmnopqrstuvwxyz

图9 prompt: a graphic design with monkey music festival poster

图10 prompt: a girl in the left holds the paper saying hello and a boy in the right holds the paper saying world

图11 prompt: On a rainy night, the lightning in the sky formed the shape of "hello."

然而Recraft依然存在一些问题，例如模型尽管能支持中文prompt，但对于中文渲染不是特别好：

图12 prompt: 下雨的夜晚，天空中的闪电构成了“天空”两个字

另外Recraft也很难渲染未明确指定的文本：

图13 prompt: a man stands in front of a huge newspaper。可以发现小字部分的笔画是扭曲的。

图14 prompt: keyboard。键盘上的文本是错乱的。

图15 prompt: ruler。刻度是错乱的。

总之，文本渲染在文本生成图像领域扮演了至关重要的角色，它不仅关系到图像的视觉呈现，还影响到文本信息的准确传达和语义理解。尽管近年来技术有了显著的进步，但文本渲染依然面临诸多挑战，需要进一步的研究和改进。

参考资料：

https://www.recraft.ai/blog/how-to-create-sota-image-generation-with-text-recrafts-ml-team-insights

Chen J, Huang Y, Lv T, et al. Textdiffuser: Diffusion models as text painters. NeurIPS 2023.

Chen J, Huang Y, Lv T, et al. Textdiffuser-2: Unleashing the power of language models for text rendering. ECCV 2024. Huang M, Li H, Liu Y, et al.

Bridging the Gap Between End-to-End and Two-Step Text Spotting. CVPR 2024.

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652540271&idx=4&sn=a1069a1de45fc11d1d1f323eb870c4d5

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉