自适应图像分割是计算机视觉领域的一个重要研究方向,其目的是将图像分割成多个具有明确边界和内部结构的区域。
本文提出了一种基于深度学习的自适应图像分割方法。该方法利用卷积神经网络(CNN)对输入图像进行特征提取,并采用自适应池化策略进行降维处理。
实验结果表明,本文提出的自适应图像分割方法能够有效提取图像的局部特征,提高图像分割精度。同时,本文提出的方法具有较好的实时性和鲁棒性,适用于多种图像分割场景。
腾讯Hunyuanwork学会了处理多视图扩散引入的噪声和不一致性,并利用条件图像的可用信息有效地恢复3D结构。作者的框架包括文本到图像模型,即Hunyuan-DiT [22],使其成为支持文本条件和图像条件3D生成的统一框架。作者的标准版本比作者的生活和其他现有模型有3倍更多的参数。
作者的Hunyuan3D-1.0在速度和质量之间取得了令人印象的平衡,显著减少了生成时间,同时保持了生成的资产的质量多样性。
1 Introduction
3D生成长期以来一直是计算机视觉和计算机图形学领域的热门且活跃的话题,其应用范围广泛,包括游戏、电影、电子商务和机器人等领域。对于艺术家来说,创建高质量的3D资产是一个耗时且费力的过程,因此,自动生成成为研究行人长期的目标。该领域早期的努力主要集中在特定类别内的无条件生成,这些生成受3D表示和数据限制。大型语言模型(LLMs)的扩展定律在图像和视频生成方面的成功,为这一长期愿景指明了方向。然而,由于3D资产的表达性质和可用的综合数据集有限,实现类似进展在3D资产生成方面仍然具有挑战性。目前最大的现有3D数据集Objarverse-xl只包含1000万资产,与语言、图像和视频任务的可用的巨大数据集相比,相形见绌。利用2D生成模型的先验知识是一个有前景的方法,以解决这个问题。
为了利用2D生成模型,先行研究已经探索了这个问题并取得了显著的进展。Poole [35]利用评分蒸馏采样(SDS)来蒸馏一个3D表示,,Nerf [31],通过2D图像扩散模型。尽管存在过饱和和大量时间成本的问题,但这种方法激发了后续的2D提升研究。后续工作探讨了如何提高采样效率[52],将扩散模型微调到多视图扩散框架[1, 24, 41],并用常规渲染损失替换采样损失。然而,这些基于优化的方法仍然耗时,需要5分钟到1小时来优化3D表示。相比之下,前馈方法可以在几秒钟内生成3D目标,但通常难以泛化到未见过的物体,并且无法生成薄如纸张的结构。将单视图生成任务分解为生成多视图图像和通过前馈方法完成稀疏视图重建是缓解泛化问题和消除SDS中的优化问题的一个有前途的途径。
尽管有多项多视图生成和稀疏视图重构的工作,但很少有人将这些方法组织成一个解决问题的统一框架。首先,广泛使用的多视图扩散模型通常批评其多视图不一致和慢的降噪过程。其次,稀疏视图重构模型通常仅依赖视角感知RGB图像来预测3D表示。单独解决这些问题具有挑战性。注意到需要一起解决这些子任务,作者提出Hunyuan3D-1.0,该方法整合了多视图扩散模型和稀疏视图重构模型的优势,在最佳情况下,实现10秒内的3D生成,实现了泛化与质量之间的微妙的平衡。在第一阶段,多视图扩散模型生成RGB,以完成2D到3D的提升。作者微调了一个大规模的2D扩散模型,以生成多视图图像,以增强模型对3D信息的理解。此外,作者将生成的视图的0海拔相机轨道设置为最大程度地提高生成的视图之间的可见区域。在第二阶段,稀疏视图重构模型利用不完美的多视图图像来恢复底层3D形状。与大多数稀疏视图重构模型只使用已知姿态的RGB图像不同,作者融入了条件图像,而无需知道视图姿态,以提供额外的视图信息作为辅助输入,以覆盖生成多视图图像中未见的部分。此外,作者采用线性解修补层操作,在不增加内存或计算成本的情况下丰富潜在空间中的细节。
作者所做的贡献可以总结如下:
作者在多视图生成中设计0高度位姿分布,最大化生成的视图之间的可见区域。 作者提出了一种视图感知的分类器无关的指导方法,以平衡不同视图生成的可控性和多样性。 作者将混合输入,其中包含未校准的条件图像作为辅助视图,引入稀疏视图重建过程,以补偿生成图像中未见部分。
2 Related Works
近年来在多视图生成模型和稀疏视图重建模型方面的最新进展,显著提高了图像到3D生成的质量。在这里,作者简要总结相关的工作。
多视图生成。二维扩散模型在新型视图生成方面的潜力自从3DiM [54]和Zero-1-to-3 [24]的提出以来,已经引起了广泛关注。该领域的关键挑战是多视图一致性,因为下游的3D重建质量严重依赖于它以准确估计3D结构。MVDiffusion [43]通过使用对应关系感知的注意力并行生成多视图像来解决这个问题,这促进了跨视图信息交互。MV-Dream [41]。Wonder3D [27]通过设计多视自注意力机制增强了多视图一致性。Zero123++ [40]将多视图拼接成一个单独的图像,这在Direct2.5 [29]和Instant3D [20]中也被使用。Sync dreamer [26]将多视图特征投影到3D体积中,并在噪声空间中强制执行3D对齐。跨视图注意的一个显著问题是其计算复杂性,它随图像大小的增加而呈平方增加。尽管一些工作[16, 45]将极线特征引入多视注意以增强视点融合,但极线线的预计算仍然具有挑战性。Era3D [21]提出行注意力以通过预定义生成的图像的0海拔来减少计算工作量。在本工作中,作者提出了两个版本的视图生成模型,以平衡效率和质量。较大的模型参数比现有模型多3倍,而且两种模型都使用大规模内部数据集进行训练,以确保更高效和高质量的多视图生成。
稀疏视图重建。稀疏视图重建关注于仅使用2-10输入图像重建目标物体或场景,这在传统多视立体(MVS)任务中是极端情况。经典的MVS方法通常强调特征匹配进行深度估计[2, 3],或 Voxel 表示[5, 17, 34, 39, 46]。基于学习的MVS方法通常用可学习的网络替换特定模块,如特征匹配,深度融合[8, 36],和深度推理自多视图像[14, 62, 64, 67]。与MVS使用的显式表示相比,最近的神经方法通过多层感知器(MLP)表示隐式场。这些方法通常依赖于通过复杂校准过程获得的相机参数估计,如运动恢复方法。然而,在实际场景中,预估的相机参数的不准确性可能影响到这些算法的性能。最近的工作[19, 51]提出直接预测可见表面的几何形状,而不需要任何显式了解相机参数。作者注意到大多数现有方法假设输入为纯正位图像或纯未校准图像,忽略了混合输入的需要。在本文中,作者通过考虑校准输入和未校准图像来实现详细的重建,从而更好地将稀疏视图重建框架集成到作者的3D生成流程中。
3 Methods
作者在本节中提出了作者方法的两个阶段,Hunyuan3D-1.0。首先,在3.1节中,作者介绍了2D到3D提升的多视角扩散模型。其次,在3.2节中,作者讨论了在稀疏视图重建框架内的已知姿态图像融合和超分辨率层。
Multi-view Diffusion Model
见证了扩散模型在2D生成方面的巨大成功,其在新颖视角生成模型上的潜力也得到了探索。大多数新颖视角[24, 54]或多视角[26, 41, 48, 49]生成模型都利用了在大规模数据上训练的扩散模型的泛化能力。作者进一步通过在大规模数据集上训练一个具有3倍参数的大型模型来扩大它。
同时,作者通过将多视图图像组织成网格来同时生成多视图图像。为了实现这一点,作者遵循零到三加法[40],并将模型扩展为3倍大小[37]。作者使用零到三加法[40]中使用的参考注意力。参考注意力引导扩散模型生成与参考图像具有相似语义内容和纹理的图像。这涉及在额外的条件图像上运行去噪UNet模型,并在去噪过程中将条件图像的参考注意力关 Key和Value 矩阵附加到相应的注意力层。与零到三加法[40]的渲染设置不同,作者渲染目标图像的仰角为0°,方位角为{0°, 60°, 120°, 180°, 240°, 300°},背景为白色。目标图像按3×2的网格排列,其中小模型的大小为960×640,标准模型的大小为1536×1024。
自适应无分类器引导(Adaptive Classifier-free Guidance)是无分类器引导(CFG)的一种广泛使用的采样技术,用于扩散模型中平衡可控性和多样性。在多视图生成中,观察到小的CFG有助于合成细节纹理,但引入了不可接受的伪影,而大的CFG则以牺牲纹理质量为代价,确保了目标的出色几何形状[56]。此外,不同CFG尺度值的表现在不同视图间有所不同,例如前视图和后视图。较高的CFG尺度在前视图中保留更多的条件图像细节,但可能导致后视图变暗。基于这些观察,作者提出了一种自适应无分类器引导计划,为不同视图和时间步长设置不同的CFG尺度值。直观上,对于前视图和早期去噪时间步长,作者设置较高的CFG尺度,随着去噪过程的进行和生成图像视图与条件图像的差异增大,该尺度逐渐减小。具体而言,作者根据前视图的CFG尺度曲线设置:
其他观点,作者应用了曲线缩放版本。
根据从前的视距,作者定义了 ,并且 ,。这种自适应方法使作者能够动态地调整CFG的规模,在不同的视图和去噪过程的不同阶段优化纹理细节和几何精度。通过这样做,作者实现了更平衡和高质量的multi-view生成。
Sparse-view Reconstruction Model
在本节中,作者详细介绍了作者的稀疏视图重建模型,一种基于 Transformer 的自回归方法,旨在在2秒内以 feed-forward 方式恢复3D形状,使用来自多视图扩散模型的生成的多视图图像。与依赖1或3个RGB图像的较大重建模型[11, 13, 20]不同,作者的方法将校准输入和未校准输入、轻量级超分辨率以及显式3D表示相结合,以实现从稀疏视图输入获得高质量3D重建。这种方法解决了现有方法的局限性,并为实际3D生成任务提供了健壮的解决方案。
混合输入。作者的稀疏视图重建模型在重建过程中使用了校准和不校准的图像(即用户输入的图像)。校准图像附带了相应的摄像机嵌入,这些嵌入在多视图扩散模型的训练阶段中预先定义。由于作者将多视图生成限制在0高度轨道,模型难以捕捉顶部或底部的信息,导致这些视角存在不确定性。
为了克服这个局限性,作者提出将未校准的条件图像信息纳入重建过程。具体而言,作者从条件图像中提取特征,并创建一个专门的视图无关分支来集成这些信息。该分支在注意力模块中采用特殊的全零嵌入作为摄像机嵌入,使模型能够区分条件图像和生成图像,并有效地集成条件图像的特征。这种设计最小化了不确定性,并提高了模型从稀疏视图准确重构3D形状的能力。
超分辨率。虽然基于 Transformer 的重建可以实现更高的特征分辨率,从而编码3D形状的更多细节,但作者注意到大多数现有工作主要使用低分辨率的三角面。这些伪影直接与三角面分辨率相关,作者将其视为一种混叠问题,可以通过提高分辨率来缓解。增强的容量也提高了几何学。然而,提高分辨率并非易事,因为它遵循平方复杂度与大小相关。受到近期工作的启发[55, 69],作者提出了一种用于三角面超分辨率的上采样模块。这种方法通过避免在高分辨率三角面 Token 上使用自注意力,使得与输入大小的线性复杂度保持一致。通过这种修改,作者最初产生了64×64分辨率三角面,每个三角面有1024个通道。作者通过一个线性层将一个低分辨率三角面 Token 解码为4×4的高分辨率三角面 Token ,从而在256×256分辨率下获得120个三角面通道特征。图3展示了更高分辨率三角面捕获的丰富细节。
3D表示。虽然大多数现有的3D生成模型以隐式表示(如NeRF或高斯分片)结束,但作者认为隐式表示并非3D生成的最终目标。只有显式表示才能在实际应用中被艺术家或用户无缝利用。因此,在作者的重构模型中,作者采用来自NeuS [50]的符号距离函数(SDF)通过隐式表示来表示形状,然后通过 Marching Cube [28]将其转换为显式网格。给定生成的网格,作者通过解缠来提取它们的UV图。最终输出可以直接用于纹理映射和进一步的艺术优化,可以直接在各种应用中使用。
4 Implementation
训练数据集。作者使用类似于Objavverse [6, 7]内部的数据集训练多视图扩散模型和稀疏视图重构模型。为了确保训练数据的质量和相关性,作者过滤掉了包含复杂场景、缺乏有意义纹理或表现出不合理畸变的3D数据。此外,在渲染之前,作者将数据集中的所有3D目标缩放到单位球体内部。
为了生成条件图像,作者采用了一种随机采样策略来选择摄像机参数。具体来说,作者从[-20, 60]度范围内采样摄像机仰角,从[0, 360]度范围内采样方位角。HDR是从一个HDR集合中随机采样得到的,视场角(FOV)是从一个均匀分布U(47,0.01)中采样得到的,摄像机距离是从U(1.5,0.1)中采样得到的。对于生成目标图像,作者固定摄像机参数以供模型学习。作者生成了24张具有从集合{0,15,30,45,...,330,345}度均匀分布的方位角和固定仰角0度的图像,视场角设置为47.9度,摄像机距离设置为1.5单位。为了确保目标图像的一致性,作者应用了均匀的照明条件。所有渲染都使用Blender完成,固定渲染分辨率为1024×1024。
训练细节:作者分别训练多视图扩散模型和稀疏视图重构模型。对于多视图扩散模型,作者的生命周期版本采用SD-2.1作为 Backbone ,而作者的标准版本则采用SD-XL作为 Backbone 。RGB图像以3x2网格组织。训练期间,条件图像随机重置为[256,512],而在推理时固定为512。目标图像均重置为320x320。对于稀疏视图重构模型,作者通过DINO编码器提取图像特征,并采用三平面作为中间潜在表示。重构模型首先用256x256多视图输入图像进行训练,然后用512x512多视图输入图像进行微调。所有训练都在64 A100 GPU上完成。
评估。作者将模型与现有方法在两个公共数据集上进行比较:GSO [9] 和 OmniObject3D [57],这些数据集中大约有70个随机采样得到的物体。为了将隐式3D表示转换为网格,作者使用了Marching Cubes算法[28]来提取等值曲面。然后作者从这些曲面中采样10,000个点,计算Chamfer距离(CD)和F-score(FS),这些是评估3D形状重建准确性的标准指标。由于某些方法需要手动校准以将预测形状与真实值对齐,当生成姿态未知时,作者应用了迭代最近点(ICP)方法进行对齐。
5 Results
作者定量地并与先前的最先进方法相比,使用两个不同的数据集和3D重建指标,对Hunyuan3D-1.0进行了定性比较。
定量比较。 作者将Hunyuan3D-1.0与使用前馈技术的现有最先进基准进行3D重建进行比较,包括OpenLRM [11],SyncDreamer [26],TripoSR [44],Wonder3D [27],CRM [53],LGM [42]和InstantMesh [59]。如表1和表2所示,作者的Hunyuan3D-1.0,尤其是作者的标准版本,在CD和F-分数指标上都优于所有 Baseline ,在该项目上实现了新的最先进性能。
定性比较。作者在图4中呈现了现有方法的定性结果。该图说明了OperLRM [11]和TripoSR [44]在处理几何形状(如肥皂和 Box )时存在困难,通常会产生模糊的纹理,如椅子上的扶手和鞋子所示。InstantMesh [20]捕获了更多的表面细节,但在某些区域仍然显示出一些瑕疵,如椅子座椅、杯子上的标志以及肥皂和 Box 角落。相比之下,作者的模型在形状和纹理上都展示了优越的重建质量。它们不仅捕获了物体的更准确的总体3D结构,而且在建模复杂细节方面也表现出色。作者的Hunyuan3D-1.0在5个指标上获得了最高的用户满意度,如图5所示。
性能与运行时间。Hunyuan3D-1.0的另一个关键优势是其推理速度。轻量级模型在NVIDIA A100 GPU上一张图像上生成一个3D网格需要大约10秒,而标准模型需要大约25秒。请注意,这些时间不包括UV图展开和纹理烘焙,这需要大约15秒。图6呈现了作者方法与现有方法在推理时间(x轴)和平均F-Score(y轴)上的对比。该图表明,Hunyuan3D-1.0在质量和效率之间实现了最佳平衡。
6 Ablation Studies.
作者特别关注了所提出的技术的有效性,即自适应CFG和混合输入在生成速度和质量方面的作用,在本节中进行了阐述。
自适应无分类引导(CFG)在图7中的生成的多视图像上的有效性。传统的固定CFG在去噪过程中往往导致背景视图出现暗影。而由Consistent123 [56]提出的时适应CFG有助于缓解暗影问题,但它忽略了视图之间的关系。在作者的相机轨道设置中,条件图像在前视图可见的区域更大。缓慢的CFG会减少前视图的条件控制,而高的CFG则在前视图和后视图上留下了过度的控制,导致模型从正面复制细节,如杯子背面的标志。通过在生成过程中动态调整CFG,作者在图像质量方面取得了显著改进。自适应CFG机制有效地防止过饱和,使模型能够生成更多连贯和真实的多视图像。
作者评估了自适应无分类器引导(CFG)在生成的多视图图像上的有效性,如图7所示。在去噪过程中,传统固定CFG往往会在后视图产生暗影。尽管由Consistent123 [56]提出的时自适应CFG有助于缓解这个问题,但它忽略了视图之间的关系。在作者的摄像机轨道设置中,条件图像从前视图具有更大的可见区域。较低的CFG会减少前视图生成的控制,而较高的CFG会对后视图生成施加过多的控制,导致模型复制前视图的细节,如杯子背面的复制品标志。通过在生成过程中动态调整CFG,作者在不同视图的可控性和多样性之间实现平衡,使模型能够生成更连贯和真实的多视图图像。
混合输入技术旨在提高对3D形状未见部分的重建效果。为了评估其有效性,作者将使用和不使用混合输入生成的形状进行比较。如图8所示,由于作者在0评估轨道中缺乏俯视信息,生成的蒜头呈现出扁平的顶部。通过结合俯视信息,重建模型可以准确地恢复蒜根周围的凹陷。这表明混合输入方法显著提高了未见区域重建的准确性,并确认它生成了更完整、更准确的3D形状,尤其是在生成视图无法直接观察到的区域。
参考文献
[0]. Tencent Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation.
知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。
下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!
自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!
生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!
👇点个“赞”和“在看”吧