开源项目 | BrushEdit 新型交互式图像编辑框架

2024-12-28 07:05   北京  

点击下方卡片,关注「魔方AI空间」公众号

简介

BrushEdit,一种新颖的基于修复的指令指导图像编辑范式,它利用多模态大模型 (MLLM) 和图像修复模型来实现自主、用户友好和交互式的自由格式指令编辑。

通过在代理-合作框架中集成MLLM 和双分支图像修复模型来设计一个支持自由格式指令编辑的系统,以执行编辑类别分类、主要对象识别、掩码获取和编辑区域修复。

该框架有效地结合了MLLM 和修复模型,在七个关键指标上取得了卓越的性能,包括掩码区域保留和编辑效果连贯性。

项目地址:https://github.com/TencentARC/BrushEdit

方法概述

BrushEdit,一种基于图像修复和指令引导的图像编辑框架。具体来说,

  • 编辑分类: 使用预训练的多模态大语言模型(MLLM)解释用户的自由形式编辑指令,识别编辑类型(添加、删除、局部编辑等),并定位目标对象。
  • 主要对象识别: 调用预训练的检测模型,根据目标对象生成相关的编辑掩码。
  • 掩码获取和目标描述生成: 根据识别出的编辑类型和目标对象,生成编辑掩码和对应的目标图像描述。
  • 图像修复: 使用双分支图像修复模型BrushNet,根据目标描述和编辑掩码进行图像修复。该模型通过将掩码图像特征注入预训练的扩散网络,增强语义一致性,并通过零卷积层连接冻结模型和可训练的BrushEdit,减少早期训练阶段的噪声。

BrushNet 采用了混合微调策略,使用随机和分割掩码进行训练,使得修复模型能够处理各种基于掩码的修复任务,而不受掩码类型的限制。

结果展示:

删除内容

添加内容

背景编辑


对象编辑

项实操部署

1、克隆仓库

git clone https://github.com/TencentARC/BrushEdit.git

2、安装基础环境

conda create -n brushedit python=3.10.6 -y
conda activate brushedit
python -m pip install --upgrade pip
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118

# 使用以下命令安装 diffusers
pip install -e .

# 安装所需的软件包
pip install -r app/requirements.txt

3、下载 BrushEdit 的模型文件

sh app/down_load_brushedit.sh
|-- models
    |-- base_model
        |-- realisticVisionV60B1_v51VAE
            |-- model_index.json
            |-- vae
            |-- ...
        |-- dreamshaper_8
            |-- ...
        |-- epicrealism_naturalSinRC1VAE
            |-- ...
        |-- meinamix_meinaV11
            |-- ...
        |-- ...
    |-- brushnetX
        |-- config.json
        |-- diffusion_pytorch_model.safetensors
    |-- grounding_dino
        |-- groundingdino_swint_ogc.pth
    |-- sam
        |-- sam_vit_h_4b8939.pth
    |-- vlm
        |-- llava-v1.6-mistral-7b-hf
          |-- ...
        |-- llava-v1.6-vicuna-13b-hf
          |-- ...
        |-- Qwen2-VL-7B-Instruct
          |-- ...
        |-- ...
      

提供五种基础扩散模型,包括:

  • Dreamshapre_8 是一种多功能模型,可以生成令人印象深刻的肖像和风景图像。
  • Epicrealism_naturalSinRC1VAE 是一种擅长生成肖像的现实风格模型。
  • HenmixReal_v5c 是一个专门生成逼真女性图像的模型。
  • Meinamix_meinaV11 是一种擅长生成动画样式图像的模型。
  • RealisticVisionV60B1_v51VAE 是一种高度通用的现实主义风格模型。

4、使用脚本运行演示:

sh app/run_app.sh 

技术交流

加入「AIGCmagic社区」群聊,一起交流讨论,涉及AI视频、AI绘画、Sora技术拆解、数字人、多模态、大模型、传统深度学习、自动驾驶等多个不同方向,可私信或添加微信号:【m_aigc2022】,备注不同方向邀请入群!!

更多精彩内容,尽在「魔方AI空间」,关注了解全栈式AIGC内容!!

从零走向AGI

https://github.com/AI-mzq/From-Zero-to-AGI.git

AIGCmagic社区飞书知识库:

https://a1qjvipthnf.feishu.cn/wiki/IQrjw3pxTiVpBRkUZvrcQy0Snnd

面试面经

https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer.git

推荐阅读

技术专栏:多模态大模型最新技术解读专栏 |AI视频最新技术解读专栏 |大模型基础入门系列专栏 |视频内容理解技术专栏 |从零走向AGI系列

技术资讯:魔方AI新视界

技术综述:一文掌握Video Diffusion Model视频扩散模型 |YOLO系列的十年全面综述 |人体视频生成技术:挑战、方法和见解

魔方AI空间
AI技术从业者与爱好者,专注于计算机视觉、深度学习、行为识别、多模态、边缘智能等前沿科技成果的研究和技术分享!
 最新文章