点击下方卡片,关注「魔方AI空间」公众号
简介
BrushEdit,一种新颖的基于修复的指令指导图像编辑范式,它利用多模态大模型 (MLLM) 和图像修复模型来实现自主、用户友好和交互式的自由格式指令编辑。
通过在代理-合作框架中集成MLLM 和双分支图像修复模型来设计一个支持自由格式指令编辑的系统,以执行编辑类别分类、主要对象识别、掩码获取和编辑区域修复。
该框架有效地结合了MLLM 和修复模型,在七个关键指标上取得了卓越的性能,包括掩码区域保留和编辑效果连贯性。
项目地址:https://github.com/TencentARC/BrushEdit
方法概述
BrushEdit,一种基于图像修复和指令引导的图像编辑框架。具体来说,
编辑分类: 使用预训练的多模态大语言模型(MLLM)解释用户的自由形式编辑指令,识别编辑类型(添加、删除、局部编辑等),并定位目标对象。 主要对象识别: 调用预训练的检测模型,根据目标对象生成相关的编辑掩码。 掩码获取和目标描述生成: 根据识别出的编辑类型和目标对象,生成编辑掩码和对应的目标图像描述。 图像修复: 使用双分支图像修复模型BrushNet,根据目标描述和编辑掩码进行图像修复。该模型通过将掩码图像特征注入预训练的扩散网络,增强语义一致性,并通过零卷积层连接冻结模型和可训练的BrushEdit,减少早期训练阶段的噪声。
BrushNet 采用了混合微调策略,使用随机和分割掩码进行训练,使得修复模型能够处理各种基于掩码的修复任务,而不受掩码类型的限制。
结果展示:
删除内容
添加内容
背景编辑
对象编辑
项实操部署
1、克隆仓库
git clone https://github.com/TencentARC/BrushEdit.git
2、安装基础环境
conda create -n brushedit python=3.10.6 -y
conda activate brushedit
python -m pip install --upgrade pip
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118
# 使用以下命令安装 diffusers
pip install -e .
# 安装所需的软件包
pip install -r app/requirements.txt
3、下载 BrushEdit 的模型文件
sh app/down_load_brushedit.sh
|-- models
|-- base_model
|-- realisticVisionV60B1_v51VAE
|-- model_index.json
|-- vae
|-- ...
|-- dreamshaper_8
|-- ...
|-- epicrealism_naturalSinRC1VAE
|-- ...
|-- meinamix_meinaV11
|-- ...
|-- ...
|-- brushnetX
|-- config.json
|-- diffusion_pytorch_model.safetensors
|-- grounding_dino
|-- groundingdino_swint_ogc.pth
|-- sam
|-- sam_vit_h_4b8939.pth
|-- vlm
|-- llava-v1.6-mistral-7b-hf
|-- ...
|-- llava-v1.6-vicuna-13b-hf
|-- ...
|-- Qwen2-VL-7B-Instruct
|-- ...
|-- ...
提供五种基础扩散模型,包括:
Dreamshapre_8 是一种多功能模型,可以生成令人印象深刻的肖像和风景图像。 Epicrealism_naturalSinRC1VAE 是一种擅长生成肖像的现实风格模型。 HenmixReal_v5c 是一个专门生成逼真女性图像的模型。 Meinamix_meinaV11 是一种擅长生成动画样式图像的模型。 RealisticVisionV60B1_v51VAE 是一种高度通用的现实主义风格模型。
4、使用脚本运行演示:
sh app/run_app.sh
技术交流
加入「AIGCmagic社区」群聊,一起交流讨论,涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!
更多精彩内容,尽在「魔方AI空间」,关注了解全栈式AIGC内容!!
从零走向AGI
https://github.com/AI-mzq/From-Zero-to-AGI.git
AIGCmagic社区飞书知识库:
https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd
面试面经
https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git
推荐阅读
技术专栏:多模态大模型最新技术解读专栏 |AI视频最新技术解读专栏 |大模型基础入门系列专栏 |视频内容理解技术专栏 |从零走向AGI系列
技术资讯:魔方AI新视界
技术综述:一文掌握Video Diffusion Model视频扩散模型 |YOLO系列的十年全面综述 |人体视频生成技术:挑战、方法和见解