NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

科技 2024-10-31 22:01 广东

↑ 点击蓝字关注极市平台

作者丨360 AI Research

来源丨我爱计算机视觉

编辑丨极市平台

极市导读

本文介绍了360人工智能研究院在NeurIPS 2024上提出的布局可控AI绘画模型HiCo，该模型允许用户通过矩形框和文本描述控制生成画面中不同主体的布局，实现更精确的图像生成效果。HiCo模型通过层次化建模和融合模块解决了对象丢失、光影不一致等问题，并在多个数据集上展现了其在生成质量和推理速度方面的优势。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

AI绘画模型一直以来被概括为“文生图”模型，究其原因，是因为当前的主流图像生成模型基本都只提供了基于文本条件生成图像的能力，各家的AI绘画产品也主要在生成画质和文本理解能力上进行竞争。但对于专业的使用者来说，文本能提供的画面控制能力非常有限，导致当前的AI绘画产品还达不到作为专业生产力工具来使用的标准。

为了解决这一问题，360人工智能研究院在人工智能顶会NeurIPS2024上提出了布局可控AI绘画模型HiCo，并将于近期开源。基于HiCo模型，使用者可以对生成画面中的不同主体的布局进行自由控制和调整，实现“指哪打哪”的生成效果。话不多说，先让我们来看一组生成效果（使用者基于不同的矩形框和对应的文本描述，来控制在画面的不同位置生成指定的内容）：

接下来是HiCo工作的详细原理解读：

论文标题：HiCo: Hierarchical Controllable Diffusion Model for Layout-to-image Generation
论文链接：https://arxiv.org/abs/2410.14324
项目主页：https://360cvgroup.github.io/HiCo_T2I/

1．摘要

布局到图像生成的任务是AIGC领域一项重要研究方向，通常指根据实例对象的文本描述及其空间位置合成目标图像。

现有的方法仍然难以生成复杂的布局，常见的不良情况包括对象丢失、光影不一致、视角冲突、重叠区域的目标交互等。

为了有效地解决这些问题，我们提出了一个层次可控（HiCo）扩散模型，具有对象分离的条件分支结构。

我们的主要观点是通过布局的层次化建模来实现空间分离。我们使用多分支结构来表示层次内容，并将它们聚合到融合模块中。

2．动机

主流的布局可控生成是采用新设计网络结构或特殊的交叉注意力机制，来实现目标的位置可控，然而在复杂场景下这些方法存在目标丢失、指令遵循能力下降、生成图像失真、推理资源消耗过大以及开源社区生态适配等问题。

如何在保证原始扩散模型能力的不变的同时，引入布局子区域的位置可控能力是我们面临的首要挑战。典型的引入外部可控条件进行图像生成的方法，如ControlNet、IP-Adapter等，其外部可控条件不限于人体姿态、关键点、参考图。

为了解决上述挑战，本文提出了层次可控扩散模型，本方法通过权值共享的分支分别提取层次化布局特征，并用融合网络进行精细聚合。

3．方法

3.1 模型整体架构

针对上述问题挑战，结合目前扩散模型外部控制条件引入的常用方法，本文提出一种名为HiCo的分层可控扩散模型（Hierarchical Controllable Diffusion Model），用于从布局生成高质量和逼真的图像。HiCo的整体架构如图1所示，包括主干SD基础模型、权重共享的旁支网络HiCo以及融合模块FuseNet。

3.2 层次化建模及融合模块

为了兼具扩散模型的能力，同时引入布局可控的能力，研究者提出了HiCo方法。该方法通过层次化建模解耦不同目标的空间布局，并动态整合背景信息和不同前景目标的内容及交互。

朴素的扩散模型的目标函数如下式：

引入外部控制条件的扩散模型目标函数如下式，给定输入图片，通过渐进式扩散加噪到 , 其中为加噪步数, 为文本控制条件, 为特定控制条件, 为可学习的网络来预测不同阶段的噪声。

相对于包含常规控制条件的扩散模型，本方法新增额外的权重共享的HiCo Net来生成全局背景和不同布局区域内容，由于增加了多个不同的控制条件，则训练目标为：

其中, 代表第个实例的文本描述和空间位置, F 代表融合模块。

融合模块主要实现对前背景的有效融合, 可根据具体的场景选择适合的融合方式, 包括平均、求和、掩码加权等。本文采用基于mask融合方式如下式, 其中表示第个实例的掩码信息，表示背景区域的掩码信息。

3.3 分层特征可视化

HiCo在整体结构上采用了一种创新的权重共享机制，该机制能够根据文本描述和空间布局信息，分别解耦不同的前景实例和背景图像生成独立的特征，在上采样阶段对这些特性进行了战略性集成。图2展示了四个实例布局的HiCo模型的生成过程。

3.4 训练数据及策略

HiCo模型可以采用不同类型场景的Grounding数据训练来获取相应的布局可控生成能力。本文在开集的细粒度描述数据（GRIT-20M）以及闭集的粗粒度类别数据（COCO）上均进行了实验验证。其中我们对GRIT-20M的子集数据进行清洗筛选出1.2M的训练数据，并构建了细粒度的评估集HiCo-7K。

HiCo结构支持不同版本扩散模型，包括但不限于SD1.5、SDXL、SD3、Flux等。同时我们支持SD模型的快速生成插件或者底模，如LoRA、LCM、SDXL-Lighting等。详细训练及推理细节可参考原文。

4．实验评估

4.1 效果评估

细粒度描述定量评估。在细粒度测试集HiCo-7K上，对图片生成质量及布局可控两个维度进行了定量评估。HiCo模型均取得显著的效果，同时不同目标数量的复杂场景图片生成效果也非常理想。

图3：HiCo-7K定性比较。HiCo方法可以生成简单和复杂布局信息的高质量图像。

人工评估。我们采用多轮、多参与者交叉评价的方法，从目标数量、空间位置、全局图像质量等方面对人类偏好进行评价。下表为不同对比方法的人工评估指标，结果表明在空间位置和语义维度方面，HiCo方法优于其他模型。此外，在全局图像质量的细粒度维度上，它的性能接近RealisticVisionV51模型（SDReal），表明尽管增强了可控性，但我们的模型的生成能力仍然是鲁棒和有效的。

4.2 消融实验

本文对HiCo结构、融合策略等进行了一系列消融实验，具体结果可以看下面的表格。

4.3 推理效率

对于推断运行时间和内存使用，我们进行了两个维度比较，详细数据图4。横向比较不同方法的性能差异，我们评估了使用24GB VRAM 3090 GPU在HiCo-7K上直接生成512×512分辨率图像的推断时间和GPU内存使用情况。

HiCo的多分支有两种推理模式：“并行模式”和“串行模式”。为了验证HiCo在对象数量增加时的性能优势，纵向比较HiCo不同推理模式的性能差异，我们评估了在HiCo-7K上生成512×512分辨率图像的推理时间和GPU内存使用情况。结果表明HiCo模型推理方式灵活，在推理耗时和显存占用方面均具有明显优势。

5．总结与展望

复杂的目标交互和重叠区域的遮挡顺序是HiCo模型乃至布局可控领域对图像生成的重要挑战。HiCo通过将每个对象的位置和外观信息解耦为不同的分支，同时通过具有全局提示的背景分支和融合网络控制它们之间的整体交互，从而实现层次化的生成。

HiCo能够通过融合模块处理重叠区域的复杂相互作用。重叠对象的遮挡顺序也通过文本描述的全局提示指定。但由于缺少相应的遮挡顺序训练数据，成功率远未达到最优。对于目前的HiCo，确实缺乏更明确的遮挡顺序控制机制。

HiCo是一种基于扩散模型，以多分支结构为导向的可控布局生成模型。通过对自然场景中不同粒度的数据进行训练和测试，并进行算法度量评价和主观人为评价，证明了该方法的优越性。然而，仍有进一步改进的潜力，特别是在图像内容编辑和集成多种样式概念方面。通过结合当前可控生成功能，可以提高AI生成艺术品的整体可玩性。

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

Windows + VSCode 配置 OpenCV C++ 一站式开发调试环境教程

我为什么离开OpenAI？六年元老发离职长文：AGI将至，我们远没准备好

Pattern Recognition｜同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

NeurIPS 2024｜RoPINN: 局域优化的物理信息神经网络，PINN的新训练范式

无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点

「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer-GameGen-X

NeurIPS 2024｜观物取象，穷理尽性：从视觉观测中推理物理运动规律

vLLM这一年的新特性以及后续规划（总结版!）

中国断臂女子，拿到了这场「赛博奥运会』的冠军！人机共生的时代已来

精英齐聚芜湖，大赛成果分享｜邀您参加2024长三角（芜湖）算力算法创新应用大赛颁奖典礼！

复旦提出 CTA-Net：卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

NeurIPS 2024｜浙大、微信提出精确反演采样器新范式，彻底解决扩散模型反演问题

90后上海女生，成美国数学大奖首位女性华人得主！获评委陶哲轩盛赞

finetune后的模型参数，还可以继续怎么玩？

ECCV'24｜SAM4MLLM：结合多模态大型语言模型和SAM实现高精度引用表达分割

CPU也能跑模型：OpenVINO模型部署入门教程

震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

TPAMI 2024｜解耦图神经网络：同时训练多个简单的GNN而不是一个

ECCV 2024｜谷歌提出LookupViT：全新通用视觉Transformer块

只要两张3090就可复现！Vision Search Assistant开源：VLM与Web搜索能力的巧妙结合

谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销

NeurIPS 2024｜浙大/微信/清华提出：彻底解决扩散模型反演问题

无需昂贵标注！大幅提升SDXL和SD3-Medium效果！文生图偏好优化新宠来了

实践教程｜CUDA C++编程指北-编程接口与硬件实现

刚刚，阿里全球数学竞赛决赛结果公布，姜萍违反预选赛规则未获奖

从0开始用 PyTorch 构建完整的 NeRF

NeurIPS 2024｜自监督湍流分析，减少99%标注数据需求

边缘检测算法综合指南

谷歌Agent首次发现真实世界代码漏洞！抢救全球数亿设备，或挽回数十亿美元损失？

100+深度学习各方向数据集资源大盘点

CLIPFit：不绕弯子，直接微调比提示微调和适配器微调更好｜EMNLP'24

NeurIPS 2024｜机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

融合 Mamba 与 Transformer｜MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

NeurIPS2024｜提高专业生产力，让你的AI画作布局可控，360 AI Research开源新模型HiCo

如何优雅地测量GPU CUDA Kernel耗时？

全球最大AI超算内部首次曝光！马斯克19天神速组装10万块H100，未来规模还将扩大一倍

一文看完多模态：从视觉表征到多模态大模型

NeurIPS 2024｜字节联合华师提出统一的多模态文字理解与生成大模型

零基础万字长文实践diffusion模型

AI「长脑子」了？LLM惊现「人类脑叶」结构并有数学代码分区，MIT大牛新作震惊学界！

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

NeurlPS 2024 Oral｜多模态融合检测端到端算法E2E-MFD来了！

三种Transformer模型中的注意力机制介绍及Pytorch实现：从自注意力到因果自注意力

Grok图像理解功能上线，单挑ChatGPT结果惊人！无地标照片秒定位，18世纪手稿一眼识别

ECCV 2024｜SegVG：刷新视觉定位新SOTA！将视觉定位的目标边界框转化为分割信号

NeurIPS 2024｜TextHarmony: 基于统一架构的视觉文本理解与生成模型

全面解读高效Segment Anything模型变体：各种图像分割加速策略和核心技术展示

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉