让多视角图像生成更轻松！北航和VAST推出MV-Adapter

科技 2024-12-18 12:47 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文的主要作者来自北京航空航天大学、VAST 和上海交通大学。本文的第一作者为北京航空航天大学硕士生黄泽桓，主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和北京航空航天大学副教授盛律。

最近，2D/3D 内容创作、世界模型（World Models）似乎成为 AI 领域的热门关键词。作为计算机视觉的基础任务之一，多视角图像生成是上述热点方向的技术基础，在 3D 场景生成、虚拟现实、具身感知与仿真、自动驾驶等领域展现了广泛的应用潜力。

近期多视角图像生成工作大多在 3D 数据集上微调文生图模型或视频生成模型，但这些方法在兼容大规模基础模型和生成高分辨率图像方面面临诸多挑战，表现在难以支持更大基础模型（如 SDXL），难以生成超过 512 分辨率的多视角图像，以及高质量 3D 训练数据稀缺而导致的出图质量下降。总的来说，这些方法的局限性主要源自对基础模型的侵入性修改和全模型微调的复杂性。

因此，北航、VAST、上海交通大学团队推出面向通用多视图生成任务的第一个基于 Adapter 的解决方案（MV-Adapter）。通过高效的新型注意力架构和统一的条件编码器，MV-Adapter 在避免训练图像基础模型的前提下，实现了对多视图一致性和参考图像主体相关性的高效建模，并同时支持对视角条件和几何条件的编码。

总结来说，MV-Adapter 的功能如下：

支持生成 768 分辨率的多视角图像（目前最高）
完美适配定制的文生图模型、潜在一致性模型（LCM）、ControlNet 插件等，实现多视图可控生成
支持文生和图生多视图（而后重建 3D 模型），或以已知几何引导来生成高质量 3D 贴图
实现任意视角生成

论文题目：MV-Adapter: Multi-view Consistent Image Generation Made Easy
论文链接：https://arxiv.org/abs/2412.03632
项目主页：https://huanngzh.github.io/MV-Adapter-Page/
代码仓库：https://github.com/huanngzh/MV-Adapter
在线 Demo：

单图生成多视图：https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
文字生成二次元风格的多视图：https://huggingface.co/spaces/huanngzh/MV-Adapter-T2MV-Anime
贴图 Demo 敬请期待

MV-Adapter 效果演示

在了解 MV-Adapter 技术细节前，先来看看它的实际表现。

首先是文字生成多视角图像的能力。MV-Adapter 不仅支持训练时所采用的 SDXL 基础模型，还能适配经过定制训练后的文生图模型（例如二次元等风格模型）、潜在一致性模型（LCM）、ControlNet 插件等，大大提升了多视图生成的可控性和定制化程度，这是以往多视图生成模型难以做到的。

MV-Adapter 还能支持单张图像到多视角图像的生成，其生成的结果与输入图像具有高度的 ID 一致性。

下面是使用 MV-Adapter 从文字生成的多视角图像重建 3D 物体的结果，可以看到，因为 MV-Adapter 生成图像的多视角一致性高，其重建的几何结果也都较为出色。

下面是使用 MV-Adapter 从单张图像生成多视角图像后，重建 3D 物体的结果。

此外，MV-Adapter 还支持给已知 mesh 几何生成对应贴图，下面是从文字条件和单张图像条件生成的 3D 贴图结果，可以看到，其生成的贴图结果质量很高，且和输入的条件匹配程度高。

MV-Adapter 还能轻易扩展至任意视角生成，下面是生成 40 个俯仰角从低到高的结果，可以看到，尽管视角数量提升，MV-Adapter 仍能生成多视角一致的图像。

整体而言，MV-Adapter 做出了以下贡献：

提出了面向通用多视图生成的第一个适配器解决方案，大大提高效率，且支持更大尺度的基础模型以获得更高的性能。
引入了一个创新的注意力架构和通用的条件编码器，可以有效地对 3D 几何知识进行建模，并支持 3D 生成和纹理生成等多种应用。
MV-Adapter 可以扩展至从任意视点生成图像，从而促进更广泛的下游任务。
MV-Adapter 提供了一个解耦学习框架，为建模新类型的知识（例如物理或时序知识）提供了见解。

多视图适配器 MV-Adapter

MV-Adapter 是一种即插即用的适配器，它可学习多视图先验，无需进行特定调整即可将其迁移到文生图模型及其衍生模型中，使其在各种条件下生成多视图一致的图像。在推理时，我们的 MV-Adapter 包含条件引导器和解耦的注意层，可以直接插入定制化的基础模型中，以构成多视图生成器。

通用的条件引导器

为了支持多视角图像生成任务，我们设计了一个通用的条件引导器，能够同时编码相机和几何信息，从而为文生图模型提供不同类型的引导。相机条件化采用 “光线图”（raymap）表示，相机的位置和方向信息被精确编码，以便与预训练模型的潜在表示相匹配。几何条件化则通过全局的几何表示来引导生成，结合三维位置图和法线图的细节信息，捕捉物体的几何特征，有助于提高图像的纹理细节与真实感。条件引导器采用轻量级的卷积网络设计，有效整合不同尺度的多视角信息，确保模型能够在多个层级上无缝结合条件输入，进一步提升生成效果和适应性。

解耦的注意力层

我们提出了一种解耦的注意力机制，通过复制现有的空间自注意力层来引入新的多视角注意力层和图像交叉注意力层。这一设计保留了原始网络结构和特征空间，避免了传统方法对基础模型进行侵入式修改。在过去的研究中，为了建模多视角一致性，通常会直接修改自注意力层，这会干扰到模型的学习先验并需要进行全模型微调。而我们通过复制原有自注意力层的结构与权重，并将新层的输出投影初始化为零，从而确保新层可以独立学习几何信息，而不会影响原有模型的特征空间。这样一来，模型能够在不破坏原有预训练特征的前提下，充分利用几何信息，提升多视角生成的效果。

为了更高效地整合不同类型的注意力层，我们设计了一种并行的注意力架构。在传统的 T2I 模型中，空间自注意力层与文本交叉注意力层通过残差连接串联在一起，而我们的设计则将多视角注意力层与图像交叉注意力层并行添加。这种并行架构确保了新引入的注意力层能够与预训练的自注意力层共享输入特征，从而充分继承原始模型的图像先验信息。具体来说，输入特征在经过自注意力层后，还会同时传递给多视角注意力和图像交叉注意力层，允许这些新层与原始自注意力层并行工作，并在学习多视角一致性和图像条件生成时，无需从零开始学习。通过这种方式，我们能够在不破坏基础模型特征空间的前提下，高效地扩展模型的能力，提升生成质量和多视角一致性。

多视角注意力机制的具体实现。为了满足不同应用需求，我们设计了多种多视角注意力策略。针对 3D 物体生成，我们使模型能够生成位于 0° 仰角的多视角图像，并采用行级自注意力。对于 3D 纹理生成，考虑到视角覆盖要求，除了在 0° 仰角生成四个均匀分布的视角外，我们还加入了来自上下方向的两个视角。通过行级和列级自注意力相结合，实现了视角之间信息的高效交换。而在任意视角生成任务中，我们则采用全自注意力，进一步提升了多视角注意力层的灵活性和表现力。这样的设计使得生成效果更加精细、丰富，适应了各种复杂的多视角生成需求。

图像交叉注意力机制的具体实现。为了在生成过程中更精确地引导参考图像信息，我们提出了一种创新的图像交叉注意力机制，在不改变原始 T2I 模型特征空间的情况下，充分利用参考图像的细节信息。具体而言，我们采用预训练且被冻结的文生图 U-Net 模型作为图像编码器，将清晰的参考图像输入该 U-Net，并设置时间步 t=0，提取来自空间自注意力层的多尺度特征。这些细粒度的特征包含了丰富的主题信息，通过解耦的图像交叉注意力层注入到去噪 U-Net 中，从而利用预训练模型学到的深层表示，实现对生成内容的精准控制。这一方法有效提升了生成质量，并使得模型在细节控制上更加灵活和精确。

实验结果

文章首先评估了多视图生成的性能，与现有方法进行对比。具体来说，文章评估了由文字生成多视图、由单张图像生成的多视图的质量和一致性，可以看到，MV-Adapter 的结果都优于现存方法。

文章还评估了使用 MV-Adapter 生成 3D 贴图的表现。从下面的结果可以看出，MV-Adapter 不管是生成的质量，还是推理的速度，都达到 SOTA 水平。

文章还对所提出的方法进行了消融实验，如下表所示，其验证了 MV-Adapter 训练的高效，以及其提出的并行注意力架构的有效性。

此外，文章还在附录部分探讨了以下内容：

MV-Adapter 与 LoRA 的讨论和分析
MV-Adapter 原生的图像修复能力
MV-Adapter 的应用价值
将 MV-Adapter 扩展至任意视角图像生成的实现细节

更多实验细节请参阅原论文。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

机器之心

专业的人工智能媒体和产业服务平台

最新文章

刚刚，OpenAI放出最后大惊喜o3，高计算模式每任务花费数千美元

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

2025英伟达奖学金出炉，7位华人博士生入选，上交、中科大、浙大校友在列

图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈

智源发布FlagEval「百模」评测结果，丈量模型生态变局

推理最强也最快，谷歌发布Gemini 2.0 Flash Thinking，全面超越o1-preview

出手即王炸？照片级真实度生成式世界模型，还获得皮克斯和Jeff Dean投资

UniReal登场：用视频架构统一图像生成与编辑，还学到真实世界动态变化规律

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

震惊！Claude伪对齐率竟能高达78％，Anthropic 137页长论文自揭短

CMU把具身智能的机器人给越狱了

跨模态通信总丢失语义、产生歧义？加入AI大模型，LAM-MSC实现四模态统一高效传输

在线试玩 | 对齐、生成效果大增，文本驱动的风格转换迎来进阶版

微调时无需泄露数据或权重，这篇AAAI 2025论文提出的ScaleOT竟能保护隐私

Scaling Law撞墙？预训练终结？亚马逊云科技为什么还在做基础大模型

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

英伟达下代RTX 50系列显卡规格被泄露，旗舰5090显存达32GB

Florence-VL来了！使用生成式视觉编码器，重新定义多模态大语言模型视觉信息

让多视角图像生成更轻松！北航和VAST推出MV-Adapter

AI大模型时代，人才的需求已经变了

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

OpenAI被偷家，谷歌Veo 2反超Sora

NeurIPS Spotlight | 基于信息论，决策模型有了全新预训练范式统一框架

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

Kimi又上新！抢先实测视觉思考模型k1，甚至比o1更聪明

与1500多支国内外队伍同台竞技，快手在NeurIPS 2024顶级大赛中上演双杀

企业大模型落地关键是什么？这家领先的大模型技术和应用公司给出答案

AI病理助手来了！浙大OmniPT上岗，3秒锁定癌症病灶，准确率超95%

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

对话肖特特：从伯克利到PromptAI创业，发明创造下一代视觉智能

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

预训练将结束？AI的下一步发展有何论调？Scaling Law 撞墙与否还重要吗？

决策过程是魔法还是科学？首个多模态大模型的可解释性综述全面深度剖析

Ilya Sutskever在NeurIPS炸裂宣判：预训练将结束，数据压榨到头了（全文+视频）

无人机：不是我想长腿，《Nature》论文说这样更省力

KDD2025 | 多标签节点分类场景下，阿里安全&浙大对图神经网络增强发起挑战

世界模型才是智驾唯一解？造车新势力们对于自动驾驶世界模型的探索路线有何异同？

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

OpenAI很会营销，而号称超强AI营销的灵感岛实测成效如何？

李飞飞：World Labs这样实现「空间智能」

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

多智能体架构Insight-V来了！突破长链视觉推理瓶颈

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉