一句话轻松P图:字节跳动发布图像编辑模型SeedEdit

文摘   科技   2024-11-13 07:00   广东  
我建了一个AI交流群,由于群已超200人,请在公众号回复“AI应用”,加群主VX,再入群,谢谢!


字节跳动的豆包大模型团队自2023年成立以来,专注于AI大模型技术的开发,旨在成为全球领先的研究团队。团队的研究领域包括深度学习、强化学习、LLM、语音、视觉和AI Infra等,并在全球多地设有实验室和岗位。2024年11月11日,团队宣布推出了SeedEdit,这是一种扩散模型,能够根据文本提示修改给定图像,是国内首个实现产品化的通用图像编辑模型。

在图像生成领域,扩散模型取得了显著成果,但图像编辑技术相对滞后,难以满足对生成内容可控性的需求。SeedEdit的设计理念是在维持原始图像和生成新图像之间找到最优平衡。该模型在通用性、可控性和高质量方面取得了新的进展,目前已在豆包PC端及即梦网页端开放测试。

SeedEdit的技术能力

SeedEdit允许用户通过简单的自然语言输入,对图像进行多样化编辑操作,如修图、换装、美化、风格转换以及在指定区域添加或删除元素等。该模型解决了图像编辑模型的两大局限:指令响应成功率低和编辑过程中图片质量下降的问题。SeedEdit通过创新的数据获取和过滤方案,实现了精准编辑并保持高质量生成,有效改善了这些问题。

1. 高精度指令理解与高美感编辑

SeedEdit依托豆包文生图大模型,具备出色的指令理解能力,无论是中文还是英文输入,都能精准响应。例如,输入“街道上车水马龙”时,SeedEdit能够迅速捕捉关键信息,将原图转换为展现交通繁忙景象的街道画面。此外,SeedEdit还能准确识别“驴打滚”和“拿破仑”的特殊含义,迅速完成美食的替换操作。

与传统涂抹选中修改目标的方式相比,SeedEdit通过文字指令编辑图像,在处理精细区域时展现出独特优势。它能够灵活、精准且快速地选择目标,在编辑过程中最大限度地保持原图的完整性。SeedEdit支持多轮编辑,借助隐空间编辑技术,维持图片像素的清晰度和画面结构的稳定性,支持用户长时序、复杂编辑任务。

2. 创新模型实现多元风格编辑

SeedEdit充分发挥了通用图像编辑模型的优势,用户只需通过简单的指令调优,即可轻松完成换背景、变换风格、物体增删、替换等编辑任务,极大地提高了编辑效率。例如,让小狗手拿报纸的编辑任务,SeedEdit编辑后的图片整体风格自然流畅,毫无贴图感。

SeedEdit:从图像再生成到图像编辑

当前的扩散模型可以仅凭文本描述生成真实且多样的图像,但这些生成的图像通常是不可控的。业界扩散模型图像编辑方法大致分为无需训练方法和数据驱动方法,二者均有劣势。豆包大模型团队提出的SeedEdit框架,不引入新的参数将图像生成扩散模型转换为图像编辑模型。

团队开发了一个Pipeline,首先生成散布在图像重建和再生成之间的多样化成对数据,然后逐渐将一个图像条件扩散模型对齐,以在这两项任务之间达到最佳平衡。SeedEdit得以输出高质量、高保持、高精准的编辑图像。

用于编辑数据生成的T2I模型

作为弱编辑模型的T2I模型生成带有新提示的新图像,实现初步“编辑”。预训练的T2I模型通过类似InstuctP2P的文本描述,生成一对作为初始编辑数据的图像。SeedEdit结合多类型的再生技术和调整参数,生成大规模配对数据集,并增加随机性以确保数据多样性,再通过过滤器筛选优质例子,用于模型训练和对齐。

带图像输入的因果扩散模型

通过最大限度继承重新生成能力、提升图像一致性,弱编辑模型T2I模型被蒸馏对齐为以输入为条件的编辑模型(强编辑模型)。SeedEdit图像条件扩散模型重用自注意力机制,两个分支(共享参数)分别用于图像输入与输出。SeedEdit通过引入一个因果自注意力结构,两个网络能够基于中间特征建立通信。如果去掉输入分支,图像条件扩散模型将回到原始的T2I模型,从而实现在编辑和T2I数据上进行混合训练。

迭代对齐

为进一步确保模型鲁棒性,SeedEdit增加额外微调轮次,逐步对齐编辑模型。微调操作为,基于已有编辑模型,遵循上述数据流程,准备一套新数据,对结果再次进行编辑、筛选,重复多轮直至在指标上没有明显改进、模型收敛。

实验结果与未来展望

实验选择SDXL、MMDTi两个基础模型,使用HQ-Edit、Emu Edit数据集,采用两个指标评估编辑性能。在HQ-Edit数据集上,SeedEdit编辑分数明显高于开源基线,效果优于目前任何开源方案,有更高的CLIP图像相似度,原始图像保持更完整。在Emu Edit基准上,SeedEdit相比原有方法,分数实现提升或持平。

SeedEdit模型已在豆包PC端和即梦网页端开启测试,首次以产品形态零样本稳定跟随用户需求编辑图片,同时增强了响应能力和保持能力。团队将从技术创新与玩法拓展上持续精进,全面提升图像编辑模型的综合实力。在技术层面,团队将优化SeedEdit在处理真实图片时的鲁棒性,针对性提升人体相关、人像美化、素材设计与重设计等高价值专家模型的响应效果。利用大模型能力,未来希望在图片控制上进一步扩展对于用户编辑意图的精准理解,在压缩的隐空间维度实现更精准的响应效果。

在玩法创新维度,现阶段SeedEdit主要致力于单图编辑,未来将拓展多图联动玩法,通过构建稳定且连贯的场景、人体与物体组合,以“讲故事”的方式赋予图像序列生命力,为用户的创意表达开辟更为广阔的空间,激发无限创作潜能。对SeedEdit创新成果感兴趣的朋友,可以浏览SeedEdit官网了解技术详情,或登录豆包PC端及即梦网页端体验模型能力。同时,豆包大模型团队希望吸引有志于视觉领域的优秀人才,共同用技术创造更多可能。



推荐阅读

🔥10W+ 教师必备的九个AI工具,很难相信还是免费!

🔥1W+ AI Agent调研--7种Agent框架对比!盘点国内一站式Agent搭建平台,一文说清差别!大家都在用Agent做什么?

🔥AI大模型应用范式:通用大模型 + 少量行业数据 + 微调技术

🔥3W+全网最强kimi用法

🔥1W+推荐几款完全免费且不限次数使用的AI工具

🔥图解Agent的九种设计模式

🔥AI大模型:Agent智能体

🔥AI模型:如何选择合适的 Embedding 模型?

🔥我不忍心您再这么辛苦了!教师必备的4个最全爆火的的AI知识库,看完您也能成为AI提示词大神!

🔥1W+一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系!!...

🔥强烈推荐!2024年你应该知道的20款免费好用的AI工具!包含语言类、图像类、视频类

🔥 华山论剑:文心一言、智谱清言、讯飞星火、通义千问、新华妙笔、 ChatGPT,公文写作哪家强?

🔥 华山论剑:腾讯、商汤、华为、百度、阿里巴巴五大平台,大模型在产品技术能力、战略愿景能力、生态开放能力三个维度的综合竞争力

🔥 4W+ 华山论剑:文心一言、通义千问、智谱AI、百川智能、天工AI、讯飞星火和Kimi七大平台,你怎么选?



    如果你觉得“军哥说AI”公众号或这篇文章对你有帮助,别忘了给我点赞、在看、转发分享给更多的朋友。有任何问题或者想法,欢迎在评论区留言和我一起讨论。




军哥说AI
专注AI应用定制开发15年,欢迎来喝茶洽谈合作! 信息系统项目管理师。 广州市科技入库专家!
 最新文章