清华大学、中国科学技术大学、微软研究院联合提出T RELLIS,这是一个大型 3D 资产生成模型,可根据文本或图像提示(使用 GPT-4o 和 DALL-E3)以各种格式生成高质量的 3D 资产,可在大约 10 秒内实现多功能生成,提供具有 3D 高斯或辐射场的生动外观和具有网格的详细几何图形,还支持灵活的 3D 编辑。主要特点总结如下:
高品质:它可以生成具有复杂形状和纹理细节的多样化高品质 3D 资产。 多功能性:它采用文本或图像提示,可以生成各种最终的 3D 表示,包括但不限于辐射场、3D 高斯和网格,以满足不同的下游要求。 灵活编辑:它允许轻松编辑生成的 3D 资产,例如生成同一对象的变体或 3D 资产的本地编辑。
来看一下小米SU7 2025璀璨洋红限定色的360°全景图生成效果:
该方法可根据文本或图像提示(使用 GPT-4o 和 DALL-E 3)以各种格式生成高质量的 3D 资产。我们的方法可在大约 10 秒内实现多功能生成,提供具有 3D 高斯或辐射场的生动外观和 具有网格的详细几何图形。它还支持灵活的 3D 编辑。放大后效果最佳。
相关链接
论文:https://arxiv.org/pdf/2412.01506 代码:https://github.com/Microsoft/TRELLIS 试用:https://huggingface.co/spaces/JeffreyXiang/TRELLIS
论文介绍
摘要
我们引入了一种新颖的 3D 生成方法,用于创建多功能、高质量的 3D 资产。其基石是统一的结构化 LATent ( SL AT ) 表示,它允许解码为不同的输出格式,例如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视图视觉特征相结合来实现的,全面捕获结构(几何)和纹理(外观)信息,同时保持解码过程中的灵活性。我们采用为SL AT量身定制的整流变压器作为我们的 3D 生成模型,并在包含 500K 个不同对象的大型 3D 资产数据集上训练具有多达 20 亿个参数的模型。我们的模型在文本或图像条件下生成高质量的结果,大大超越了现有方法,包括最近在类似规模下的方法。我们展示了以前的模型不提供的灵活的输出格式选择和本地 3D 编辑功能。代码、模型和数据即将发布。
生成|文本转 3D 资源
所有文本提示均由 GPT-4 生成。
生成|图像转为 3D 资产
图像提示由 DALL-E 3 生成或从 SA-1B 中提取
编辑|资产变体
T RELLIS 可以生成与给定的文本提示一致的给定 3D 资产的变体。
方法介绍
论文引入了结构化 LATents ( SL AT ),这是一种统一的 3D 潜在表示,用于高质量、多功能的 3D 生成。SL AT 将稀疏结构与强大的视觉表示结合在一起。它定义与物体表面相交的活动体素上的局部潜在特征。通过融合和处理来自 3D 资产密集渲染视图的图像特征来对局部潜在特征进行编码,同时将它们附加到活动体素上。这些特征来自强大的预训练视觉编码器,可捕捉详细的几何和视觉特征,补充活动体素提供的粗略结构。然后可以应用不同的解码器将SL AT映射到高质量的各种 3D 表示。
在SL AT 的 基础上训练了一系列大型 3D 生成模型,称为T RELLIS,以文本提示或图像为条件。我们应用了一个两阶段管道,首先生成SL AT的稀疏结构,然后生成非空单元的潜在向量。采用整流流变压器作为我们的主干模型,并对其进行适当调整以处理SL AT中的稀疏性。我们在精心收集的大型 3D 资产数据集上使用多达 20 亿个参数训练 Trellis。T RELLIS可以创建具有详细几何形状和生动纹理的高质量 3D 资产,大大超越了以前的方法。此外,它可以轻松生成具有不同输出格式的 3D 资产,以满足不同的下游要求。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~