首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

豆包发布国内首款通用图像编辑模型SeedEdit

科技 2024-11-11 22:32 湖南

11月11日，豆包大模型团队正式发布了一款名为SeedEdit的通用图像编辑模型，该模型能够根据用户的自然语言指令，对图像进行多样化的编辑操作，包括但不限于修图、换装、美化、风格转换以及在特定区域添加或删除元素等。

在过去，图像编辑模型的效果存在两大局限性：一是指令响应成功率较低，容易误解用户的意图。

二是编辑过程可能导致图片质量下降，比如出现结构变形、图像模糊等问题。

而SeedEdit通过采用创新的、多尺度且多规则的数据获取和过滤方案，实现了精准编辑，并且能够保持高质量的图像生成，有效解决了上述问题。

SeedEdit具有三大显著特点，使其成为图像编辑领域的革新者。

首先，它拥有高精度的指令理解能力，无论是中文还是英文输入，无论是成语还是专有名词，都能准确响应。

例如，输入“街道上车水马龙”，SeedEdit能够迅速捕捉到关键词，将原图转换为展现交通繁忙景象的画面。

又如，“驴打滚换成拿破仑”这样的指令，模型也能准确识别并完成美食的替换操作，满足用户的编辑意图。

其次，SeedEdit在处理图像时能够保持极高的质量。

与传统的涂抹选中修改目标的方式相比，SeedEdit直接通过文字指令编辑图像，尤其在处理如裂纹、发丝等细节时展现出独特的优势。

它能够更加灵活、精准地选择目标，在编辑过程中最大限度地保持原图的完整性。

比如，当需要移除玻璃裂纹时，SeedEdit只会处理涉及的文字指令区域，而不会影响到图像的其他部分。

第三，SeedEdit支持多轮编辑，这得益于其隐空间编辑技术。

该技术能够在编辑过程中维持图片像素的清晰度和画面结构的稳定性，支持用户进行长时间、复杂的编辑任务。

一个普通的茶杯，通过多轮编辑后，可以变成带有“WOW”字样的大理石花纹咖啡杯，体现了SeedEdit强大的编辑功能。

此外，SeedEdit的高效创新模型也是一大亮点。

相较于传统的图像编辑方法，SeedEdit充分发挥了通用图像编辑模型的优势，用户只需通过简单的指令调优，即可轻松完成换背景、变换风格、物体增删、替换等多样的编辑任务，大幅提升了编辑效率。

例如，一张腊肠狗在充满泡泡的浴缸中看报纸的照片，经过SeedEdit编辑后，整体风格自然流畅，完全没有贴图感。

为了实现上述功能，豆包大模型团队提出了SeedEdit框架，该框架不引入新的参数，而是将图像生成扩散模型转换为图像编辑模型。

团队认为，图像编辑本质上是图像重建和再生成之间的平衡，因此他们开发了一个Pipeline，首先生成散布在这两个方向上的多样化成对数据，然后逐渐将一个图像条件扩散模型对齐，以在这两项任务之间达到最佳平衡。

成对图像数据的稀缺性是图像编辑问题的核心难点，而SeedEdit通过将文本到图像（T2I）模型视为一个弱编辑模型，改造其通过生成带有新提示的新图像来实现“编辑”。

随后，该弱编辑模型被反复进行蒸馏和对齐，以最大限度地继承再生成能力，同时提高图像的一致性。

通过结合多种再生技术和调整参数，生成大规模配对数据集，并增加随机性以确保数据多样性，再通过过滤器筛选优质例子，用于模型训练和对齐。

实验结果显示，SeedEdit在HQ-Edit数据集上的编辑分数明显高于开源基线，效果优于目前任何开源方案，具有更高的CLIP图像相似度，原始图像保持更完整。

在Emu Edit基准上，SeedEdit相比原有方法，分数实现提升或持平。

这些结果表明，SeedEdit在处理模糊指令和执行细颗粒度编辑方面具有较高的成功率。

目前，SeedEdit模型已经在豆包PC端和即梦网页端开启了测试。

相比行业内的现有研究成果，SeedEdit首次以产品形态零样本稳定跟随用户需求编辑图片，同时增强了响应能力和保持能力。

在玩法创新方面，现阶段SeedEdit主要专注于单图编辑，未来将拓展多图联动玩法，通过构建稳定且连贯的场景、人体与物体组合，以“讲故事”的方式赋予图像序列生命力，为用户的创意表达开辟更为广阔的空间，激发无限创作潜能。

直达链接：https://team.doubao.com/en/special/seededit

关注我们：即可加入【AI交流群】，免费领取【AI大礼包】

每日聚焦最新AI，让每个人都能享受到AI带来的乐趣！

最新文章

百度世界2024：发布文心iRAG和无代码工具秒哒

豆包发布国内首款通用图像编辑模型SeedEdit

AMD推出10亿参数开源模型OLMo，性能超越同类产品

字节公布X-Portrait 2，模仿出惟妙惟肖的人物表情

腾讯开源混元MoE和3D大模型，业界首个同时支持文字、图像生成的3D开源大模型

天工AI更新高级搜索功能，可搜索股票、科研信息

Suno推出AI音乐克隆，可复用任意音乐风格

知乎推出专业搜索功能，确保所提供的信息既专业又可靠

AI绘画能力超越FLUX，世界首个能生成长文本图像的模型

小米发布澎湃OS 2，小爱同学升级为超级小爱，体验更加智能

爱诗科技发布PixVerse V3，视频生成技术显著提升，中英文提示词均可理解

智谱推出AutoGLM，AI学会自动操作手机完成日常任务

Claude 3.5大更新，AI学会操作计算机，还能分析数据库

讯飞星火4.0 Turbo发布，多项能力实现领先

Stable Diffusion 3.5发布，消费级硬件开箱即可用

智源开源Emu3多模态大模型，视频理解和生成效果表现优异

百度联合多所高校发布Hallo2，可实现长时间高分辨率音频驱动肖像动画

ChatGPT Windows 桌面程序发布，目前仅特定用户可用

ColorOS 15 发布，以用户为中心的系统级AI升级

联想携手全球AI巨头，推进混合式AI发展

Adobe MAX 2024发布会，Creative Cloud 推出100多项新功能

苹果推出MM1.5大模型，提升AI图像视觉理解能力

Kimi探索版上线，能自主搜索并解决复杂问题

马斯克发布Robotaxi无人驾驶汽车，取消方向盘和踏板

字节扣子全面升级，可一键复制各类型AI模板

AI领域科学家，包揽了诺贝尔物理、化学奖

黑森林实验室发布FLUX 1.1 Pro，目前最先进、最高效的绘画模型

Notion AI发布“一站式”AI助手，可对多平台文件进行分析

猫眼发布“神笔马良”AI，让剧本一键成片

美图MOKI全面开放，三步生成AI创意短片

Llama 3.2发布最强端侧开源模型，手机即可运行

年轻人的第一个对象，东京政府提供AI配对平台

豆包发布AI视频生成模型，提供精准语义理解和高保真画质

基于阿里通义大模型，JetBrains AI编程助手国内发布

可灵1.5版本更新：引入运动笔刷功能，让视频精准运动

无使用次数限制，阿里上线通义万相AI视频平台

豆包推出一套AI音乐生成系统，可多方面控制音乐

元象开源中国最大MoE模型A36B，可无条件免费商用

OpenAI o1发布，理科推理能力超越人类专家博士

国内首家五官科医院，推出AI生成式病历

国家网络安全会发布《人工智能安全治理框架》

苹果发布iPhone 16系列AI手机，Apple Intelligence带来全新交互体验

谷歌AI虚拟试穿，数千件连衣裙任意穿

支付宝推出多个AI助手，理财、生活、健康统统帮你搞定

文心一言APP改名了，升级后覆盖五大生活场景

ComfyUI新版本发布，多项更新优化工作流程

快手发布电商AI换衣神器，想怎么换就怎么换

高性能低功耗，最强SOTA小模型Zamba登场

支持VR实时渲染，实景三维大模型书生3.0开源

Midjourney开放网页端，并宣布进军硬件领域

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉