11 月 11 日,字节跳动豆包大模型团队推出了最新图像编辑模型 SeedEdit,主打一句话轻松 P 图。它是国内首个产品化的通用图像编辑模型,无需描边涂抹,仅使用简单的自然语言,就能换背景、转风格,或者在指定区域进行元素的增删和替换。比如,输入 Prompt「把老婆饼换成驴打滚」,SeedEdit 立马锁定修改目标,完成美食替换:(Prompt:把老婆饼换成驴打滚)
要知道,「老婆饼」、「驴打滚」等中国美食曾「骗」倒一众大模型,但 SeedEdit 能精准理解复杂指令,不仅看得懂中英文提示词,还对成语和专有名词「门儿清」。再比如,在不「误伤」原图细节的情况下,把草莓换成柠檬:(Prompt:把草莓换成柠檬)
在处理玻璃裂纹、发丝等精细涂抹区域时,SeedEdit 同样能够保持原图的完整性:此外,作为一款通用图像编辑模型,它不仅具备单次编辑的能力,还支持多轮操作,能够让用户对同一图像进行连续的创意编辑。比如,让一个二次元女孩换上骑士装、戴上牛仔帽、改变动作、增加背景,最后「Pia」一下变身酷飒火枪手:本次 SeedEdit 推出,字节也发布了技术报告。AIGC 图像的精准编辑一直是个老大难问题,业界此前方案要么在编辑上做不到「指哪打哪」,要么编辑生成的质量低或导致原图主体变化较大。报告显示,SeedEdit 依然采用了 Diffusion 架构,但在不引入新参数的情况下将图像生成模型转换成了图像编辑模型。其秘诀是在保持原始图像和生成新内容之间寻找平衡,最终得以在图像编辑的通用性、可控性和高质量上实现新的突破。目前,SeedEdit 已上线豆包 PC 端和字节 AIGC 平台即梦网页端开始测试。- 豆包 Web:https://www.doubao.com/chat/create-image
- 即梦 Web:https://jimeng.jianying.com/ai-tool/image/generate
SeedEdit 的图片编辑效果可谓炸裂,让人不禁要问:生成式 AI 的修图技术是否真的已经能做到「毫无 PS 痕迹」了?我们索性搞个实测,看看字节这款 AI 神器实力到底如何。今年以来,Dall・E 3、Midjourney 等 AI 绘图平台响应群众呼声,陆续上线了生图编辑功能。不得不说,相较业界之前方案,编辑生图的质量和美感的确大大改善,但体验上仍有提升空间,一是指定区域编辑需要手动涂抹,二是对编辑指令的响应经常不够精准。而这次字节卯足劲推出的 SeedEdit,首先在通用性上做到了极致,不用涂抹编辑区域,只需给出一句简洁的 prompt,就能实现任意指令的编辑,适用各类编辑任务,支持用户脑洞大开的奇思妙想。其产品侧玩法也很简单。在即梦「图片生成」中,上传参考图,选择「智能参考」,然后根据需要输入 Prompt 即可。接下来就是实测最关键的编辑精准度。(Prompt:蒙娜丽莎张开嘴大笑,手里抱着一只猫。)原作中蒙娜丽莎的微笑神秘、含蓄又难以捉摸,但 SeedEdit 一顿爆改,瞬间让画面有了一种诙谐感。蒙娜丽莎咧嘴大笑,怀里的猫高冷地眺望远方,画风自然、线条流畅。SeedEdit 严格遵循了指令,除了表情和动作发生变化外,其他细节均能保持不变。蒙娜丽莎的发丝、头纱和衣褶清晰可见,手部没有变形扭曲,猫咪的胡须、毛发根根分明,就连背景也完美复刻。我们让它把《倒牛奶的女仆》中的背景换成了麦当劳后厨。(Prompt:背景换成麦当劳后厨,女仆正端着牛奶瓶)为了准确体现 Prompt,SeedEdit 编辑后的画面中,墙上挂着麦当劳的大 Logo,原本简陋的房间也放置了现代化的不锈钢橱柜,毫无「贴图感」。由于原画历经几个世纪之久,难免会出现细微裂痕和颗粒感,SeedEdit 巧妙去掉其中的斑驳,画质一整个拉升。再看这幅《戴珍珠耳环的少女》。仅需下个动作指令,SeedEdit 就开始发挥想象力。(Prompt:戴珍珠耳环的少女手里拿着一杯奶茶)即使是真人图像,SeedEdit 也完全能 hold 住。(Prompt:帽子颜色换成红色)
(Prompt:给画面上色,时尚,舒服)
移除画中无关元素,若是用传统 PS 方法,需要一点点描边框、选涂抹区域,一旦手不稳,就得重新返工。而 SeedEdit 只需一句「去掉右边老虎」的指令,就能精准定位并删除,这相比于手动编辑,大大节省了时间。(Prompt: 去掉右边老虎)
当然,SeedEdit 也可以进行元素替换。比如把下图中右边的金毛换成泰迪,图像其余部分画面结构、像素质量,均不受影响。(Prompt:把右侧的小狗换成棕色的泰迪)
值得一提的是,SeedEdit 还能随意切换各种风格,比如涂鸦、乐高、3D、皮克斯、迪士尼……(Prompt:把画面风格换成用线条和形状勾勒的涂鸦风;Prompt:把画面风格换成皮克斯风格;Prompt:把画面风格换成日本动漫风)经过多次尝试,我们也总结出一套超实用的 Prompt 指南。- 每次编辑尽量使用单指令,为防止它「丢三落四」, 多指令最好少于 3 种变化。
- 虽然 SeedEdit 具备一定的推理能力,有时指令模糊它也能猜个大概,但为了效果更佳,在局部编辑时,下指令要精准,尤其是画面具有多个实体时,需描述清楚对谁做什么。
- 参考图尽可能清晰、分辨率高,要想保留参考图中的对象,则可以多加一些对象描述。比如从简单的 change to afro hairstyle 变成 change this young Chinese man hairstyle to afro style.
- 如果感觉编辑效果不明显,可以调整编辑强度,比如从 0.5 调整到 1.0;若发现编辑变化太多, 同样也可以减少编辑强度,比如降到 0.1。
我们就让字节 SeedEdit 和 AI 生图界的「扛把子」Dall・E3、Midjourney 来次真刀真枪的比拼。首先,我们给这三个模型输入同样的 Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography。让它们各自生成一张图片,再在此基础上进行局部调整。SeedEdit 生成的图片既时尚又充满运动气息。模特身着印有醒目耐克 Logo 的运动背心,搭配同色系棉质夹克,裤子的光泽与夹克相得益彰,整体效果相当协调。随后,我们输入文字指令「Change the blue Nike tracksuit to black Nike tracksuit」,SeedEdit 迅速响应,给模特换成了一身黑色,夹克和裤子的光泽感同样得到完美呈现。(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)与 SeedEdit 一句话 P 图不同,Midjourney 和 Dall・E3 的局部编辑功能稍显复杂,需要先使用画笔工具涂抹要修改的区域,然后输入 Prompt,以实现对图像的元素修改。Midjourney 虽然也遵从了指令,但改变了模特动作和衣服款式。(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)Dall・E3 的表现最拉胯,生成的图像美感不足,还一股 AI 味,涂抹修改也没有完全遵循 Prompt。(Input Prompt:a female model in blue Nike tracksuit, Fujifilm, urban street photography;Edit Prompt:Change the blue Nike tracksuit to black Nike tracksuit.)
再来试一下删除效果。Prompt:Remove the guy on the right.
Midjourney 确实抹去了画面右侧的男生,但身后的建筑也跟着不翼而飞;而 SeedEdit 在遵循文字指令的同时,还通过自身的推理能力将画面缺失部分补齐,不过,女生的眼神和衣服等细节也稍有瑕疵。总之,SeedEdit 作为通用的图像编辑模型,无需再训练微调即可快捷应用,极大地简化了图像编辑的流程。无论是简单的图像修正还是复杂的风格转换,它都能迅速适应并提供高质量的编辑结果。这一突破性的技术进步,不仅降低了图像编辑的门槛,也让创意工作者能够更加专注于艺术创作本身,而不必耗费大量时间在技术细节上。在产品发布的同时,字节同时也发布了 SeedEdit 的技术报告。仔细阅读一下可以发现,它在技术原理上确实有自己的独到之处。- 论文:《SeedEdit: Align Image Re-Generation to Image Editing》
- 论文及技术能力展示:https://team.doubao.com/seededit
据技术报告介绍,SeedEdit 基于图像生成常用的扩散模型,但又能够根据任何文本提示修订给定的图像。该工作发现,AI 生成式图像编辑的关键,在于在保持原始图像(图像重建)和生成新图像(图像生成)之间的平衡。这就意味着若想让图像生成的 AI 模型拥有修图能力,就需要在大量相应的成对数据上训练这个模型。因此,SeedEdit 采取的方式是从一个弱生成器(文本到图像生成模型)开始,再在上述两个方向之间创建多样化的图像对,以此来逐步训练模型,最终获得我们所需要的平衡。下图是 SeedEdit 的框架:首先将文本到图像模型(T2I)视为弱编辑模型,再改造它生成的带有提示的新图像来实现「编辑」。随后,把这个弱编辑模型反复进行蒸馏和对齐,以最大程度继承再生成能力,同时提高生成后图像的一致性。
最近一段时间,扩散模型生成的图像虽然效果越来越好,但其内容通常是不可控的。通过 SeedEdit,字节的研究人员尝试在不引入新参数的情况下,将图像生成的扩散模型转化成了图像编辑模型。与此前一些 AI 图像编辑的方法相比,SeedEdit 能够实现更丰富的效果和编辑能力,也可以实现图片的连续编辑 —— 它让扩散模型不再是完全随机进行生成,而是可以像常规的工具一样一步步来,做出你想要的效果。把 SeedEdit 方法与几种业内先进的图像编辑方法进行比较,总体而言,新的方法在两个基准上都显示出了明显更高的分数。同时也可以观察到 HQ-Edit 数据集中 CLIP 图像有更高的相似性,这意味着原始图像的内容得到了更好的保留。基准测试成绩。
与一些开源方法比较,SeedEdit 的优势在于能够理解人们提出的相对模糊的指令,并输出较为细致准确的结果。不同方法的输出结果。
即使是和 DALL-E3、Midjourney 这样已经商用的先进图像生成器(带编辑功能)相比,SeedEdit 也可以相对更紧密地跟随人们给出的指令。DALL-E3、Midjourney、SeedEdit 之间,不同图像生成工具的效果对比。
不得不说,字节提出的方法别具特色,相比业内现有技术又向前跨出了一步。看到这里,你可能突然意识到,AI 领域的风向正在发生转变。一直以来,很多关注 AI 绘画的人总是在期盼着 DALL-E、Midjourney 等海外 AI 创业公司的技术更新。而随着国内的技术不断迭代,我们已经见证了一系列先进的生成式 AI 应用在外网刷屏。或许到了新技术落地的节点,我们目光更应该向近处看。其实仔细想来,作为全球短视频领域的佼佼者,字节跳动在生成式 AI,特别是图像生成领域上的优势可谓得天独厚。早在豆包大模型诞生前,字节就一直在关注 AI 图像生成相关技术,并持续增加研发投入。豆包大模型尽管入场时间不是最早,但凭借优秀的效果和独特的社交体验迅速成为了国内最热门的大模型之一。到今年 9 月,豆包大模型日均生成图片 5000 万张。能够迅速做出生成式 AI 应用爆款的字节,其所做的努力并不只是在应用层面上创新。字节大模型团队最近的前沿研究,已经在不断挑战 AI 领域的技术难题。在工程层面上,仅从今年下半年起,我们在社交网络上就不时可以刷到字节的新成果,比如可以生成长篇漫画、有剧情视频的 StoryDiffusion:
视频生成模型 PixelDance 和 Seaweed:
到上星期发布的,音频加人脸视频生成技术 Loopy:
再就是今天 SeedEdit 所展示的,方便好用的图片编辑能力。在 AI 基础研究层面,字节大模型团队的工作也在不断获得认可。其提出的单目深度估计模型 Depth Anything V2 入选了苹果的 CoreML 模型库。该模型可应用在自动驾驶、3D 建模、增强现实、安全监控以及空间计算等领域。
上周,字节豆包大模型团队公布的一项系统性研究,首次在业界通过大规模实验深入探索了视频生成模型能否真正理解物理规律,得到了谢赛宁、Gary Marcus,以及图灵奖得主 Yann LeCun 等 AI 学者的转发和点赞。
一篇篇论文、一个个项目的积累,不仅撑起了如今豆包大模型的热度,也在悄然推动着学界的前沿探索。SeedEdit 团队表示,其实现阶段模型在复杂内容和精细控制层面上还有改进空间。下一步要提升的还有真实图片风格保持、ID 一致性、编辑准确性、长时序内容(如漫画生成)等等方面。除此以外,SeedEdit 还将会开放多轮复杂编辑的功能。投稿或寻求报道:liyazhou@jiqizhixin.com