论文一起读 | 用于零次肖像视角生成的可控扩散模型

文摘科技 2024-06-13 10:49 广东

‍导读

本文是VCC林镕桢同学对论文 DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis 的解读，该工作来自南加州大学和字节跳动公司并已被计算机视觉顶级会议CVPR 2024接收。

项目主页：

https://freedomgu.github.io/DiffPortrait3D/

该工作提出了一种肖像条件扩散模型，能够根据自然场景下单视角肖像合成三维一致并具有照片级真实感的新视角图像，从单个二维肖像图像忠实地重建人脸的三维外观是计算机视觉的长期目标，在视觉效果、数字人、三维动画等下游领域具有广泛的应用。

注：本文图片均来自原论文与其项目主页。

引言

从单视角图像中重建人脸其他视角是多视角重建任务在人脸领域的一种应用，适用于各种现实世界应用，包括增强现实 (AR)、虚拟现实 (VR)、远程呈现、游戏等等。传统的基于回归的人脸多视图重建依赖于显式的几何先验，然而这种方式受限于有限的参数空间无法忠实描绘面部表情；StyleGAN [1]是二维人脸生成领域发展的重要一步，将其推广到三维任务中出现了一批3D-aware-GANs，但这些方法受限于庞大的计算量且难以处理数据集外的图像；近年来随着扩散模型在生成领域的快速发展，一系列基于二维扩散模型的多视图生成方法开始涌现。DreamFusion [2] 通过提炼扩散模型的先验来微调NeRF [3] 模型；Zero-1-to-3 [4] 利用扩散模型从丰富的三维数据集中获得几何先验，提高了生成质量。然而这些方法仅在一般物体上进行训练，或是直接应用于肖像会造成明显的合成质量下降。

本次导读介绍了DiffPortrait3D，其在二维扩散模型上加以拓展，在推理过程实现了免微调地从单个肖像合成三维一致的新视图。此方法将任务分解为对外观和对相机视分别进行控制。针对外观控制，方法使用预训练扩散模型作为基础，通过人脸重建任务微调适用于人脸外观特征提取的控制模型；对于相机视角控制，通过ControlNet [5]的方式将相机姿态注入到预训练扩散模型中；此外还额外在扩散模型中插入可训练的多视角注意力机制来确保视角间的一致性。该方法在推理数据集外的图像和多视图基准测试中，在定性和定量上都展示出了领先的结果。

技术贡献

本工作主要贡献如下：

提出一种基于二维扩散模型的多视图合成方法，给出单个肖像进行推理，能够生成三维一致的新视角图像；
外观和相机视角的分离控制，可在保留身份和表情的情况下实现有效的相机视角控制；
通过交叉视图注意力模块和三维感知噪声生成实现三维视图一致性。

III

方法介绍

DiffPortrait3D的流程如图1所示，其利用扩散模型作为渲染框架的主干网络并引入一个辅助外观控制分支，该分支利用参考图像中的局部结构和纹理对主干网络进行逐层指导；为了获得有效的相机控制，该方法使用ControlNet隐式地从目标视角肖像导出相机位姿，并作为附加条件注入扩散过程；最后通过在主干网络中集成额外的多视图注意力增强视图一致性，并在推理时通过三维感知的方式生成噪声具有一致性的噪声，以此进一步提高生成结果的三维一致性。

图1 网络结构图

外观参考模块

为了使用预训练扩散模型

\mathcal{F}

为主干网络合成新视图

I_{ref},

DiffPortrait3D通过复用扩散模型参数并针对特征提取任务微调模型得到

\mathcal{F}_{ref}。

主干扩散模型

\mathcal{F}

的自注意力机制计算如下：

Attn\left(\cdot \right)=softmax(\frac{QK^T}{\sqrt d})\cdot V

Q=W_Q\cdot \varphi\left(z_t\right),\ K=W_K\cdot \varphi\left(z_t\right),\ V=W_V\cdot \varphi\left(z_t\right)

其中

Q, K, V

为注意力机制的三个特征,他们分别由网络中间层特征

\varphi\left(z_t\right)\

投影得到。对于外观参考模型

\mathcal{F}_{ref},

其网络结构与主干扩散模型一致，输入为参考图像

\ I_{ref}

经过编码网络

\mathcal{E}

得到的特征

\mathcal{E}(I_{ref}),

该网络会提取出与作为主干网络同一尺度的中间层特征并与其对应特征拼接起来得到新的带有外观控制的中间层特征，随后重新投影得到具有外观控制的注意力特征，如图1(b)所示，具体的计算公式如下：

K_{\bigoplus\ }=W_K\cdot(\varphi\left(z_t\right)\oplus\varphi_{ref}\left(\mathcal{E}(I_{ref})\right))

V_{\bigoplus\ }=W_V\cdot(\varphi\left(z_t\right)\oplus\varphi_{ref}\left(\mathcal{E}(I_{ref})\right))

值得注意的是，这里并没有如同训练扩散模型过程中将参考图像进行加噪，这样能够确保将参考图像中的结构和外观信息细致地转移到新的肖像合成中去。

视角控制模块

这个阶段的目标是在不影响从参考图像

\mathcal{F}_{ref}

中提取出的外观属性下合成目标视角的肖像图，主干网络

\mathcal{F}

和特征提取器

\mathcal{F}_{ref}

都会被锁定。一种最直接设计是使用ControlNet作为核心方法，采用从同一肖像的目标视角图像中提取的空间特征图作为图像条件，例如关键点、语义分割或是边缘，但这种方法问题在于这些基于同一肖像的条件图像在推理过程中是不可获得的，因此通常在推理时会使用不同身份的图像作为条件图像。然而，基于不同身份的条件图像在将相机位置传给骨干网络的同时可能还会包含耦合的语义外观信息，例如脸部轮廓和表情，当提供视角信息的图像和参考图像表现出明显的外观特征时，这种方式会造成明显的伪影。

为了解决以上问题，DiffPortrait3D在上述方法的基础上采用了来自不同随机身份的肖像图像作为视角条件训练ControlNet，该设计统一了训练和推理中的输入信息，并促进视角信息和外观控制信息的解耦，能够生成正确反映头部姿势的新视角图像。但这又带来了新的问题：训练ControlNet进行跨身份视角控制需要在相同视角下图像，而目前并没有严格针对这项设置的数据集。为了解决这个问题，该方法利用预训练的3D-GAN [6] 模型

R(v,\ z_v)

来生成合成目标角度的图像

I_{cam}。

此处

v

表示根据目标图像校准的相机参数，而

z_v

是输入到3D GAN的随机高斯噪声。由于每次训练时都是随机生成的肖像

I_{cam}

和

I_{ref}，

每次输入的图像在表情和外观上具有显著差异，这也就使得视图控制模块被训练为“仅从

I_{cam}

导出相机位置。此外，由于相机位姿直接由视图控制模块隐式导出，这也免去了对

I_{cam}

特征进行繁琐的处理，例如关键点检测或语义分割，这些检测算法往往在严重遮挡或宽视角下不可靠。

视角一致性模块

在基于扩散模型实现生成多视图时，一个重大的难点在于如何保证多视角下生成结果的一致性，DiffPortrait3D引入了两种方式来生成更加具有一致性的多视角图像。

其一是基于AnimateDiff [7] 的启发，在主干扩散网络的上下采样层之间加入了视图一致性模块，如图1(c) 所示。由于AnimateDiff这种基于视频生成的逐帧模块最初的设计是为了确保两帧之间时间一致性和运动一致性，需要用连续的视频帧进行训练，而肖像视图生成任务中，生成的视图将完全由

I_{cam}

序列定义。基于以上观察，在训练视图一致性模块时将会批量随机打乱视图，这将使得一致性模块能够专注于跨视图注意力而不是时间或运动分布。具体计算过程如图1(c) 所示，模块训练时使用形状为

(B\times V,\ C,\ H,\ W\ )

的多视图条件图像{

I_{cam}

}组合作为视角控制网络的输入，其中

B

和

V

是批大小和视图数量，

C、

H、

W

分别表示图像通道数、高度和宽度，每个批次生成的图像都是由同一外观图像

I_{ref}

控制的。在主干网络

\mathcal{F}

内部的各尺度特征通过ResBlocks和TransBlocks将特征维度投影为

(B\times V,\ {C}',\ {H}',\ {W}')

，其中

{C}',\ {H}',\ {W}'

分别表示潜在特征的通道数、高度和宽度，随后将维度重塑为

(B\times {H}'\times\ {W}' ,V,\ {C}')

的形状，在视图一致性模块中使用基于自注意力的多视图注意力计算。

其二是使用三维一致的噪声作为生成的初始输入。图像的空间结构是在去噪过程中的早期阶段形成的，因此使用“三维一致”的噪声样本作为初始噪声输入扩散模型，在合成多个新视图时有利于增强结构和纹理的一致性，DiffPortrait3D基于此观察提出了一种有效的两阶段过程来生成具有三维感知的噪声样本。首先在多视图图像数据集上，训练了一个基于三维卷积的NVS模型，该模型包含三维特征场和神经特征渲染，如图2所示。基于该NVS模型能够提供模糊但三维一致的目标新视图的代理，随后通过扩散模型加噪过程将代理图像转换为隐空间中的高斯噪声作为主干模型的输入。

图2 基于NVS模型生成三维一致性噪声

部分结果展示

图3展示了使用数据集之外图像的生成结果，可以看到借由预训练扩散模型丰富的先验，模型在处理非数据集图像时展现出了较高的可用性，对于不同风格的肖像也能正确生成多视角一致的图像。

图3 DiffPortrait3D在数据集外的肖像生成结果

接下来是DiffPortrait3D与其他多视图生成方法的结果对比，可以看到DiffPortrait3D在处理来自其他数据域或是不同视角和风格的肖像时都表现更优，其生成结构在外观控制和视角一致性上都能生成更加符合参考肖像的结果。

图4 现有多视图生成模型在数据集外的生成结果对比

图5 现有多视图生成模型在NeRSemble数据集[8]的结果对比

最后，图6展示了DiffPortrait3D在多视角一致性模块提出的视角一致性注意力机制和三维一致性噪声的消融实验结果，可以看到若是没有视角一致性注意力多个视角间的结果产生了较大的背景变化和轻微的阴影变化，而三维一致性噪声则有助于保持视角间的结构一致性。

图6 多视图一致性的消融实验结果

总结与展望

近年来基于扩散模型的生成式模型在图像、视频和三维生成等领域取得了大量突破，随着扩散模型理论和工业的不断优化，使得各项相关应用能够落地成为现实。该工作充分利用了扩散生成领域的各项优秀成果并针对于人脸生成任务将这些方法有机结合起来，达到了领先的生成效果。

当前框架为从单张图片进行三维重建和可视化提供了可能性，在未来如何将该基于人脸的方法推广至更加通用的物体；此外该方法虽然提出了一些优化多视角一致性问题的尝试但并未从根本上解决多视角一致性问题。如何解决上述问题将仍是未来的热点话题。

思考与讨论

Q: 既然在生成三维一致性噪声时会获得目标视角下的图像，为何不直接使用这些图像来训练视角控制的ControlNet？

A: 从理论上可能是可行的，但这很大程度上会受限于生成三维一致性噪声所使用的三维卷积网络的生成能力，使用这种方式无法完全解耦出图像外观控制和视角控制；同时，当三维卷积无法生成足够合理的结果时，可能导致生成结果变差。

Q: 能否使用Dreambooth或是LoRA等方法对外观进行控制从而免除外观模块的训练？

A: 由于生成任务需要忠实还原参考图像的身份，而Dreambooth或LoRA等方法常常只能达到“神似”（概念一致），无法做到与目标身份完全一致，故难以直接运用在该任务上。

以下是开放性问题，欢迎读者朋友留言讨论：

Q: 目前DiffPortrait3D仅能针对人脸多视角生成任务，若想将该方法应用至其他物体，我们还需要做哪些工作？

-- End--

导读 | 林镕桢

审核 | 周漾

编辑 | 申金

参考文献

[1] Tero Karras, Samuli Laine, Timo Aila. A style-based generator architecture for generative adversarial networks. Conference on Computer Vision and Pattern Recognition (CVPR). 4401-4410, 2019.

[2] Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall. Dreamfusion: Text-to-3D using 2D diffusion. The Eleventh International Conference on Learning Representations (ICLR). 2023.

[3] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM (CACM). 65(1), 99-106, 2021.

[4] Ruoshi Liu, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3D object. International Conference on Computer Vision (ICCV). 9298-9309, 2023.

[5] Lvmin Zhang, Anyi Rao, Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. International Conference on Computer Vision (ICCV). 3836-3847, 2023.

[6] Sizhe An, Hongyi Xu, Yichun Shi, Guoxian Song, Umit Ogras, Linjie Luo. Panohead: Geometry-aware 3D fullhead synthesis in 360deg. Conference on Computer Vision and Pattern Recognition (CVPR). 20950–20959, 2023.

[7] Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, Bo Dai. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv. 2307.04725, 2023.

[8] Tobias Kirschstein, Shenhan Qian, Simon Giebenhain, Tim Walter, Matthias Nießner. NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads. ACM Transactions on Graphics (TOG). 42(4), 161:1-161:14, 2023.

深圳大学可视计算研究中心

Visual Computing Research Center

----------------------------------

https://vcc.tech

中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础，致力促进多个学科的深入交叉与集成创新，重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫

转载及合作：szuvcc@gmail.com

http://mp.weixin.qq.com/s?__biz=Mzg3ODY2NDI1OA==&mid=2247515363&idx=1&sn=bb29c4c8c28110982350ea717d4f26d1

深圳大学可视计算研究中心

深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平，以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础，促进多个学科的深入交叉和集成创新。详见官网: vcc.tech

最新文章

研究方向分享 | 人工智能

论文一起读 | 通过单样本个性化分割一切模型

讲座 | 跨域无人系统协同控制与分布式观测

如何提高科研效率？常用科研工具分享

论文一起读 | CNS-Edit: 通过耦合神经形状优化进行3D形状编辑

Flux | 开源文生图大模型

论文一起读 | Point Transformer V3: 简化设计，实现更快、更强的三维点云处理模型

讲座 | 额外连边对网络化无人系统集群协同性能的调控机理研究

论文一起读 | PDF: 基于概率驱动框架的开放世界三维语义分割

论文一起读 | CWF: 在高质量网格简化中整合弱特征

论文一起读 | BrepGen: 一种具有结构化隐式几何的边界表示生成扩散模型

2024「论文一起读」年度评选

喜报｜VCC三位博士生入选奖励计划

论文一起读 | 面向具身交互的通用3D物体理解

深圳大学计算机与软件学院2025直博生招生细则

ECCV 2024 | 基于卷绕数的多边形网格重建

玉兔东升照人间，嫦娥歌吟入荔园

讲座 | 3D前沿技术

ECCV 2024 | 基于马氏距离多视角最优传输的多视角人群定位

论文一起读 | PaperToPlace: 将指令文档转化为空间化和上下文感知的混合现实体验

讲座 | Multimodal Enhanced 3D Perception and its Applications

2024年度VCC优秀志愿者表彰

讲座 | 情智兼备数字人与机器人关键技术初探

ECCV 2024 | 具有语义的三维房屋线框生成

论文一起读 | 无需特定调优的个性化文本到图像扩散模型动画化

ECAI 2024 | 可适应点云模型: 通过适应二维视觉模型进行三维点云分析

论文一起读 | 基于共享注意力的风格对齐图像生成

可视计算研究中心师生党支部｜EmoSet荣获2024年度CCF优秀图形开源数据集奖

可视计算研究中心师生党支部｜党建引领聚合力科研创新谱新篇

论文一起读 | PartSLIP: 通过预训练的视觉语言模型对三维点云进行小样本部件分割

讲座 | 三维场景的标签高效学习和细粒度感知

SIGGRAPH 2024 | 基于空间和表面对应场的交互迁移方法

讲座 | Dynamics of an SIR Model on Complex Networks

讲座 | 复杂网络的结构识别与优化算法

论文一起读 | 基于接触信息微调的Transformer实现人-物联合重建

SIGGRAPH 2024 | Split-and-Fit: 基于维诺划分的边界表示学习方法

论文一起读 | 三维扩散策略: 基于简单3D表征的广义视觉运动策略学习

可视计算研究中心师生党支部｜党建引领凝思想科研攻关展力量

可视计算研究中心师生党支部｜2024毕业生风采录

论文一起读 | DINOBot：基于视觉基础模型检索和对齐的机器人操控

讲座 | Vehicle Localization by Ground-to-Aerial Image Matching

讲座 | 大语言模型的推理能力探索

论文一起读 | MeshGPT: 基于仅解码器注意力模型的三角网格生成方法

论文一起读 | 用于零次肖像视角生成的可控扩散模型

SIGGRAPH 2024 | LGTM: 局部到全局的文本驱动的人体动作扩散模型

万物向阳，踏实生长 - 暨闫子豪博士后出站答辩

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉