一句话轻松P图：字节跳动发布图像编辑模型SeedEdit

文摘科技 2024-11-13 07:00 广东

我建了一个AI交流群，由于群已超200人，请在公众号回复“AI应用”，加群主VX，再入群，谢谢！

字节跳动的豆包大模型团队自2023年成立以来，专注于AI大模型技术的开发，旨在成为全球领先的研究团队。团队的研究领域包括深度学习、强化学习、LLM、语音、视觉和AI Infra等，并在全球多地设有实验室和岗位。2024年11月11日，团队宣布推出了SeedEdit，这是一种扩散模型，能够根据文本提示修改给定图像，是国内首个实现产品化的通用图像编辑模型。

在图像生成领域，扩散模型取得了显著成果，但图像编辑技术相对滞后，难以满足对生成内容可控性的需求。SeedEdit的设计理念是在维持原始图像和生成新图像之间找到最优平衡。该模型在通用性、可控性和高质量方面取得了新的进展，目前已在豆包PC端及即梦网页端开放测试。

SeedEdit的技术能力

SeedEdit允许用户通过简单的自然语言输入，对图像进行多样化编辑操作，如修图、换装、美化、风格转换以及在指定区域添加或删除元素等。该模型解决了图像编辑模型的两大局限：指令响应成功率低和编辑过程中图片质量下降的问题。SeedEdit通过创新的数据获取和过滤方案，实现了精准编辑并保持高质量生成，有效改善了这些问题。

1. 高精度指令理解与高美感编辑

SeedEdit依托豆包文生图大模型，具备出色的指令理解能力，无论是中文还是英文输入，都能精准响应。例如，输入“街道上车水马龙”时，SeedEdit能够迅速捕捉关键信息，将原图转换为展现交通繁忙景象的街道画面。此外，SeedEdit还能准确识别“驴打滚”和“拿破仑”的特殊含义，迅速完成美食的替换操作。

与传统涂抹选中修改目标的方式相比，SeedEdit通过文字指令编辑图像，在处理精细区域时展现出独特优势。它能够灵活、精准且快速地选择目标，在编辑过程中最大限度地保持原图的完整性。SeedEdit支持多轮编辑，借助隐空间编辑技术，维持图片像素的清晰度和画面结构的稳定性，支持用户长时序、复杂编辑任务。

2. 创新模型实现多元风格编辑

SeedEdit充分发挥了通用图像编辑模型的优势，用户只需通过简单的指令调优，即可轻松完成换背景、变换风格、物体增删、替换等编辑任务，极大地提高了编辑效率。例如，让小狗手拿报纸的编辑任务，SeedEdit编辑后的图片整体风格自然流畅，毫无贴图感。

SeedEdit：从图像再生成到图像编辑

当前的扩散模型可以仅凭文本描述生成真实且多样的图像，但这些生成的图像通常是不可控的。业界扩散模型图像编辑方法大致分为无需训练方法和数据驱动方法，二者均有劣势。豆包大模型团队提出的SeedEdit框架，不引入新的参数将图像生成扩散模型转换为图像编辑模型。

团队开发了一个Pipeline，首先生成散布在图像重建和再生成之间的多样化成对数据，然后逐渐将一个图像条件扩散模型对齐，以在这两项任务之间达到最佳平衡。SeedEdit得以输出高质量、高保持、高精准的编辑图像。

用于编辑数据生成的T2I模型

作为弱编辑模型的T2I模型生成带有新提示的新图像，实现初步“编辑”。预训练的T2I模型通过类似InstuctP2P的文本描述，生成一对作为初始编辑数据的图像。SeedEdit结合多类型的再生技术和调整参数，生成大规模配对数据集，并增加随机性以确保数据多样性，再通过过滤器筛选优质例子，用于模型训练和对齐。

带图像输入的因果扩散模型

通过最大限度继承重新生成能力、提升图像一致性，弱编辑模型T2I模型被蒸馏对齐为以输入为条件的编辑模型（强编辑模型）。SeedEdit图像条件扩散模型重用自注意力机制，两个分支（共享参数）分别用于图像输入与输出。SeedEdit通过引入一个因果自注意力结构，两个网络能够基于中间特征建立通信。如果去掉输入分支，图像条件扩散模型将回到原始的T2I模型，从而实现在编辑和T2I数据上进行混合训练。

迭代对齐

为进一步确保模型鲁棒性，SeedEdit增加额外微调轮次，逐步对齐编辑模型。微调操作为，基于已有编辑模型，遵循上述数据流程，准备一套新数据，对结果再次进行编辑、筛选，重复多轮直至在指标上没有明显改进、模型收敛。

实验结果与未来展望

实验选择SDXL、MMDTi两个基础模型，使用HQ-Edit、Emu Edit数据集，采用两个指标评估编辑性能。在HQ-Edit数据集上，SeedEdit编辑分数明显高于开源基线，效果优于目前任何开源方案，有更高的CLIP图像相似度，原始图像保持更完整。在Emu Edit基准上，SeedEdit相比原有方法，分数实现提升或持平。

SeedEdit模型已在豆包PC端和即梦网页端开启测试，首次以产品形态零样本稳定跟随用户需求编辑图片，同时增强了响应能力和保持能力。团队将从技术创新与玩法拓展上持续精进，全面提升图像编辑模型的综合实力。在技术层面，团队将优化SeedEdit在处理真实图片时的鲁棒性，针对性提升人体相关、人像美化、素材设计与重设计等高价值专家模型的响应效果。利用大模型能力，未来希望在图片控制上进一步扩展对于用户编辑意图的精准理解，在压缩的隐空间维度实现更精准的响应效果。

在玩法创新维度，现阶段SeedEdit主要致力于单图编辑，未来将拓展多图联动玩法，通过构建稳定且连贯的场景、人体与物体组合，以“讲故事”的方式赋予图像序列生命力，为用户的创意表达开辟更为广阔的空间，激发无限创作潜能。对SeedEdit创新成果感兴趣的朋友，可以浏览SeedEdit官网了解技术详情，或登录豆包PC端及即梦网页端体验模型能力。同时，豆包大模型团队希望吸引有志于视觉领域的优秀人才，共同用技术创造更多可能。

最新文章

一键万能公式去除Ai味，从90%降到0%

豆包AI大模型：重塑智能时代的创新力量

Kimi的长文本能力：为何优于其他大模型

一句话轻松P图：字节跳动发布图像编辑模型SeedEdit

2025年人工智能十大趋势！最新预测→

豆包、KIMI、文心一言，微信指数对比

数据如何驱动业务增长

Kimi电话对话功能上线体验

Kimi重新定义搜索

推荐使用！面向师生免费的生成式AI软件合集

一款支持各种语言，免费且功能强大的智能AI编程助手，开发效率提升利器！

热门AI工具盘点：60+具体工作场景中的效率提升指南

ChatGPT 正式转型为 AI 搜索，面向公众免费开放

COZE AI实战-创建并使用知识库

COZE AI实战-海报创意工坊

AI Agent调研--7种Agent框架对比！盘点国内一站式Agent搭建平台，一文说清差别！大家都在用Agent做什么？

老板必备的九个AI工具：免费且高效的工作助手

COZE扣子平台最新重大更新

10种最流行的AI大模型深度解析

通义大模型：重塑智能时代的基石

豆包AI：重塑未来生活的智能助手

KIMI AI探索版：引领智能搜索新时代的先锋

全网最全 Kimi 使用指南：解锁六大高阶技巧，提升效率新境界

AI客服的困境：胡说八道，不解决问题，还让公司亏了1000亿

联想创新科技大会：迈向AI赋能的新时代

AI Agent现状：为何企业落地AI应用这么难

6大AI智能体平台

Kimi智能助手：月之暗面科技的智慧杰作

Kimi探索版深度体验：AI搜索的新里程碑

发现Kimi的多元应用：创新玩法解析

热门AI工具盘点：60+具体工作场景中的效率提升指南

数据挖掘技术赋能医保监管：基于上海市的实践探索

超实用的AI翻译工具概览

AI智能体兴起：重塑生活与工作的未来图景

AI智能体：重塑生活与产业的智能助手

揭秘谷歌最新AI实战案例：探索未来Agent的六大趋势

Kimi应用全面解析：高效处理信息的得力助手

豆包AI八大功能深度解析：赋能高效生活与学习

大模型产业步入关键验收期：应用爆发与场景深耕

AI大模型与小模型的融合：AI产品的新篇章

这2款AI神器免费又好用！别再花冤枉钱了！

全网最全 Kimi 使用手册：提升工作效率的利器

Kimi的隐藏技能揭秘：提升效率的九大神器

豆包电脑版：重塑高效工作与学习的新纪元

手把手教你高效用AI——以豆包为例

Dify开源知识库的探索之旅

字节跳动推出两款视频生成大模型

通义千问在制作PPT上提高效率不止一点点

阿里云栖大会发布Qwen2.5，通义大模型迎来重大升级

盘点百度旗下15款AI产品，你更喜欢哪一款？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉