只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

文摘 2024-11-23 21:11 安徽

目前的图像编辑软件都太过繁琐和上手难度较高，对普通用户来说，非常的不友好。

即使随时AI技术的反正，一些AI图像编辑工具仍然是非常难以上手。

对普通用户来说一直期待的一种AI图像编辑工具是：我随便点点，说出我的需求即可帮我实现自动编辑，无需操作复杂的步骤。

现在这种东西出现了...

MagicQuill :由支付宝和香港大学联合开发的一个功能强大的智能互动图像编辑系统，通过直观的界面和 AI 驱动的功能，实现快速而精准的图像修改。

该系统集成了多模态大语言模型 (MLLM)，实现实时意图预测，从而免去复杂的文字输入。

基于用户的操作，系统会智能生成相关提示，支持连续的编辑流程。

只需简单的笔触操作，即可轻松完成如添加新元素、移除对象、调整颜色等复杂的图像编辑任务。

简单来说就是，你可以用画笔随便在你需要修改的图像上画几笔，然后这个工具会通过 AI 自动帮你把图片变成你想要的样子!

比如：

添加东西：想给图片里的人加一顶帽子？用笔刷画个大概的形状，输入提示词，它会自动生成一顶帽子。

删除东西：不想要图片里的某个物品？用擦除笔刷涂掉它，AI 会自动修补背景，看起来就像那个物品从来没存在过。
改颜色：不喜欢图片里的颜色？用颜色笔刷涂一下，比如把粉色花变成蓝色。

更改你的发型和发色

更多案例：

更改背景和你的服装

把你变成肌肉男

给你添加发饰

帮你脱裤子

给你换个衣服

操作流程也非常简单

上传图片：选择需要编辑的图片，或使用内置画布开始创作。
选择笔刷工具：

根据需求选择添加、删除或颜色笔刷。
使用笔刷在画布上绘制。

AI 实时生成：

系统根据笔触和提示生成相应的图像编辑结果。
用户可修改提示以优化效果。

调整参数：

使用高级参数调整生成结果的细节，如边缘强度、颜色范围等。

保存或继续编辑：

确认满意后保存结果，或进行进一步编辑。

测试结果

MagicQuill 的核心模块和功能

1. 编辑处理器 (Editing Processor)

编辑处理器是系统的核心模块，负责实际的图像编辑任务，通过对用户笔触信号的解读，实现高精度的图像修改。

添加元素（Add Brush）

作用：通过笔刷在图片上绘制轮廓，AI 自动生成指定的新元素。
特点：

用户只需简单地画几笔，AI 会根据笔触和提示推测用户的意图。
可生成动物、装饰物或其他物体，并自动匹配图片的风格和细节。

应用案例

案例 1：给人物添加饰品
上传一张肖像图片，使用添加笔刷画一个简单的圆环，AI 会生成一条逼真的项链，并与人物的脖子自然贴合。

案例 2：为风景增添元素
在一片森林画几笔作为小鹿的轮廓，AI 自动补全“一只生动的小鹿便栩栩如生。"且与背景融为一体。

删除元素（Subtract Brush）

作用：通过擦除笔刷，去掉图片中的不需要的部分，并自动修补空白区域。
特点：

AI 根据周围环境自动填补被删除部分，保持图片整体一致性。
适合移除多余物体、错误细节或干扰元素。

应用案例

案例 1：去掉多余的物品
“让我们把骷髅先生的帽子脱掉，帮他降温。”

案例 2：细节调整
上传一张海豚图片，发现海豚有多余的尾鳍。用删除笔刷涂掉多余的尾鳍，AI 会重新绘制海豚尾部，看起来毫无违和感。

结合加法和减法画笔来创造惊人的组合效果！

"让我们给蒙娜丽莎一只宠物猫~"

“让我们把这个帅哥的领带换成领结！”

颜色调整（Color Brush）

作用：使用颜色笔刷在图片中指定区域上色或改变已有颜色。
特点：

支持精准上色，用户可选择任意颜色。
可调整颜色强度，让效果更细腻。
自动匹配图片的光影和风格，避免人工上色的生硬感。

应用案例

案例 1：改花的颜色
改变蛋糕上花的颜色 “你不觉得蓝色花朵看起来比粉色花朵更梦幻吗？”

案例 2：人物妆容调整
精确的颜色高亮 - 精确涂抹您想要上色的地方，改变头发的一部分颜色，同时还能剪短头发

2.绘画助手 (Painting Assistor)

绘画助手是 MagicQuill 的智能化核心，通过实时理解用户的操作意图，大幅简化编辑流程。

也就是工具会猜测你的意图，比如你画了一条线，它会问你“这是路径还是藤蔓？” 如果猜错了，你可以改掉它。

智能猜测与修正

作用：AI 根据用户的笔触自动猜测编辑意图并生成内容，用户可以手动修改 AI 的猜测。
特点：

提升编辑效率，无需从零输入复杂的文本提示。
如果猜测错误，用户可更正提示，优化生成结果。

应用案例

案例 1：路径绘制

用户在一张花园图片上画了一条线，AI 自动生成了一条小径。如果用户想要生成的是“藤蔓”，可以修改提示，让 AI 重新生成符合意图的内容。

案例 2：识别整体和部分

你想给人物、机器人或者其他人物增加其他肢体或者部件，它能够识别你的意图来精准添加，毫无违和感。

功能细节：

实时意图预测 (Draw&Guess)：

分析用户的笔触和上下文图像内容，预测用户的编辑意图。
自动生成符合语义的提示，例如“画出头饰后，系统提示‘花冠’”。

多模态大模型 (MLLM)：

基于 LLaVA 模型进行微调，专注于用户笔触的语义解读。
支持连续编辑，减少用户在每一步都需输入文本提示的负担。

自动化提示生成：

系统通过“画与猜”模式，将用户的涂画意图自动转换为编辑命令。
例如，用户画一个圆圈，系统预测“这是一个盘子”并执行相关编辑。

数据增强与语义优化：

构建专用数据集，模拟用户绘画场景，使模型更擅长处理人类手绘输入。

误差处理：

针对模糊或多义的用户输入（例如一个简单的圆形），模型能给出上下文相关的多种猜测。

3. 创意收集器 (Idea Collector)

创意采集器（Idea Collector）提供简洁而强大的交互界面，降低学习成本：

模块化设计：

包含工具栏（选择笔刷和参数调整）、画布（实时绘画和修改）、预览区域（查看生成结果）。

跨平台支持：

支持通过 Gradio 和 ComfyUI 等平台运行，适配多种设备。

特点：

快速上手：适合专业和非专业用户，学习成本低。
功能丰富：提供分层管理和参数调整功能，方便用户自由发挥创意。

功能细节：

直观操作工具：

笔刷工具：

涂鸦笔刷和颜色笔刷，便于用户对图像进行自由绘画式修改。

橡皮擦：

用于精细修正笔触，增强编辑的准确性。

图层管理：

支持管理多个编辑步骤，让用户能够随时撤销或重做修改。

跨平台兼容性：

与 Gradio 和 ComfyUI 等生成式 AI 平台兼容。

通过 ReactJS 组件实现模块化设计，方便未来扩展和集成。

实时生成预览：

编辑后的图像实时显示，用户可以在生成结果区域预览修改效果。
提供“确认”和“撤销”功能，确保每一步修改都符合用户意图。

灵活参数调整：

用户可调节边缘强度、颜色透明度等参数，以适应不同的编辑需求。

III. 超实用的画布工具！

点击此按钮上传您想要编辑的照片~

用橡皮工具擦掉它就可以了！

使用光标拖动、旋转和调整您的笔画大小 - 就像在 PowerPoint 中工作时一样！

左边是 ctrl+z，右边是 ctrl+y - 你知道这意味着什么！😊
对于 Mac 用户，左边是 command+z，右边是 command+shift+z！😝

哎呀！这看起来不对 😵 - 点击这个垃圾桶删除这条线

笔触挡住了我的视线，我怎么能看到图像😡？！试着点击这个按钮暂时隐藏你的笔触

这两个图标将在图像生成后出现...
我喜欢这个生成的图像😍，我想继续编辑！➡️ 点击✅继续编辑
这是什么东西 😡，我不想看到它！➡️ 点击 ❎ 丢弃结果

IV. 注释

当你看到左下角的旋转图标时，这意味着魔法羽毛笔仍在充电 💪 等待它消失后再点击运行按钮！

当魔法棒闪烁时，我们的画笔正在努力猜测您想画什么 🤔 请耐心等待！🙏

4.多种风格模型支持

提供多种生成风格模型，用户可以随时选择适合的模型切换风格，满足用户在不同艺术风格上的需求。

可用模型及适用场景：

SD1.5/realisticVisionV60B1_v51VAE.safetensors：
用途：生成逼真的写实风格图像。
推荐场景：适用于大多数日常编辑需求，如照片修复或背景调整。

SD1.5/DreamShaper.safetensors：
用途：生成梦幻风格的图像。
推荐场景：适合制作充满幻想和艺术感的场景。

SD1.5/majicMIX_realistic：
用途：擅长生成真实感强的人像。
推荐场景：适合头像设计或肖像照片的精细修改。

SD1.5/MeinaMix.safetensors：
用途：擅长生成动漫风格图像。
推荐场景：适合二次元插画设计和角色创作。

SD1.5/ghostmix_v20Bakedvae.safetensors：
用途：另一个适合生成动漫图像的模型。
推荐场景：尤其适合需要柔和风格和细腻细节的二次元图像。

5. 高级参数调整

为有经验的用户提供更精细的生成控制。
常用参数：

细节控制：启用此选项后，可以增强边缘处理的精细程度。
笔触影响范围：调节笔触影响范围的像素大小。控制笔刷周围区域的扩展或缩小，决定修改区域的精确度。
颜色强度：调节颜色笔刷的控制强度，控制颜色的渲染范围和饱和度。
负面提示：用户可以输入希望模型避免生成的内容。
边缘强度：控制添加/删除笔刷的边缘影响强度。

高级编辑能力

MagicQuill 还提供了一些扩散模型的标准参数，虽然默认用户无需调整，但高级用户或行业专家可以探索更高级的设置。

噪声级别：调整生成过程中的随机性，影响生成图像的风格和细节。
采样步骤：增加步骤可提高生成质量，但会增加计算时间。
控制强度：决定用户输入的条件对生成结果的影响权重。

______________

End.

感阅

谢读

点赞，关注关注关注！

小互AI

XiaoHu.AI 学院（http://xiaohu.ai）学习如何让AI为你服务。加入小互AI学院，获取最新AI资讯、案例、项目、教程。学习如何使用AI...

每个人都能买得起英伟达发布个人AI超级计算机能运行2000亿参数的大模型

小互AI年度总结：2024重大AI技术和超实用AI工具盘点...

中学生都能看懂：10 分钟搞懂ChatGPT的工作原理...

深度评测| 豆包全新视觉理解模型能力强到飞起能跨模态和你一起协作

真正实现说话就能PS图片 Gemini 2.0混合多模态能力展示

OpenAI 新功能 Project 评测及教程

AI 进入智能代理时代：一文深度了解Google 最新 AI 模型 Gemini 2.0模型到底有多强

教程：通过AI生成可爱中文图像海报和手绘菜单路边广告设计作坊要倒闭

Runway 又更新了现在可以将你的表演、声音转移到其他视频角色身上

轻松打造出各种AI专家 OpenAI 昨晚王炸更新灵感竟来自字节论文

微软推出炸裂的Copilot Vision 功能可实时监控你的上网行为随时提供AI帮助

更快、更聪明 OpenAI发布了正式版o1和o1 Pro推理模型（内涵发布会中文视频完整版）

真正的AI搜索引擎能够完全理解你的意思并直接输出你要的结果

深度评测 | 1000亿搞出来的AI搜索到底靠不靠谱？？？

Google开发出能像Photoshop一样将视频智能分解成多个图层的视频编辑技术

评测教程 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

评测 | Claude 允许你自定义回复的语气和形式还能自由设定和学习你的写作风格

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统

GetPickle AI：克隆一个你的替身让他帮你开会而你可以逍遥自在...

你们拿来天天办公交差，人家却用来搞副业入账百万...hhh

OpenAI 官方发布： ChatGPT 学生写作指南指导学生如何正确使用GPT

炸裂：P图软件将全部倒闭字节跳动发布AI图像编辑工具只需一句话即可实现全自动P图

ChatGPT 帮我制定护肤方案 2个月让我的皮肤变成了这样...

Siri 可以实时读取你屏幕信息并执行操作苹果正式推出集成 Siri 和 Apple Intelligence新框架

字节跳动发布只需你的一张照片即可将任意视频角色的表情和动作转移到你身上

一句话手机自动帮你点外卖、订酒店买东西智谱 AI 这次真的是国际领先了

Runway 新工具：人人都可拍动画片可以把视频转换成任意风格虚拟角色动画并且保持表情语音口型同步

Anthropic 发布一项炸裂的新功能 AI 可以模仿人类访问电脑帮你自动干活

让美女转身成为可能 Adobe 推出全新AI 工具可以像旋转3D 对象一样旋转 2D 图像

全球首创桌面双轮足式AI机器人接入了ChatGPT 能跑、能看、能说、倒不了...

让你的蓝牙耳机永不断电通过你的“皮肤来供电” 让可穿戴设备没有电池也能工作

教你如何激活GPTSearch 并将 Chrome 浏览器默认搜索引擎替换成 GPTSearch

学习“神器”来了！把任何书本上的图表、公式变成互动实验，物理知识轻松掌握！

超好玩的创意图像模型：用一张卡通图片总结4张真实人物照片

Anthropic CEO ：5到10年内 AI将助力人类扫除几乎所有疾病人类寿命有望翻倍达到150岁

超完整：特斯拉We Robot 发布会全纪录：完全无人驾驶出租车、Optimus 机器人、Robovan（机器人巴士）

小白也能开发应用：AI 帮你自动写代码自动运行并自动部署而且全部在浏览器中完成

哈佛大学俩学生开发出一种 AI 眼镜看你一眼即可扒光你的所有个人信息

OpenAI 旧金山开发者大会发布五大创新功能实时语音、视觉微调、模型蒸馏...

3.17亿粉丝全球第一网红 MRBEAST 公司内部培训手册曝光教你如何制造爆款内容

通过AI聊天直接一键生成你的专属古诗词卡片（附 Prompt及教程）

使用AI聊天一键生成高颜值社交名片全解析（附 Prompt及教程）

Google发布全球 185 个各大企业的生成式 AI 实际应用落地案例

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心秘密激励模型学习是培养 AGI 的最佳方式

无需开颅手术将 ChatGPT 整合到脑机系统中控制电脑等各种设备

小互AI 日报：字节跳动开发出端到端语音同步翻译系统、卡内基梅隆大学教授：“人类需要进入高度戒备状态！”

Perplexity 联合创始人兼产品主管揭秘该公司借助AI形成的独特产品开发方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

只需在图像上画几笔即可轻松编辑图像 支付宝推出AI驱动的智能图像编辑系统

操作流程也非常简单

1. 编辑处理器 (Editing Processor)

添加元素（Add Brush）

删除元素（Subtract Brush）

颜色调整（Color Brush）

2.绘画助手 (Painting Assistor)

智能猜测与修正

功能细节：

3. 创意收集器 (Idea Collector)

功能细节：

III. 超实用的画布工具！

IV. 注释

4.多种风格模型支持

5. 高级参数调整

只需在图像上画几笔即可轻松编辑图像支付宝推出AI驱动的智能图像编辑系统