【一手实测】Tripo 2.0:AI 3D生成天花板再拉升!

文摘   2024-09-26 13:57   江苏  

长期以来,3D大模型领域虽然不如语言模型和视频模型那样受人瞩目,但全球的3D大模型开发者们却一直在暗中较劲,不断推进技术的发展。

从风投机构a16z支持的Yellow,到李飞飞领导的World Labs,3D大模型的迭代速度从未放缓。

最近,国内领先的3D大模型公司VAST 更新了其旗舰产品Tripo,这是一个基于千万级高质量原生数据库训练的高性能版本。

该3D生成工具不仅支持文字输入,还可以接受单张或多张图片作为输入。在几何精细度和图片还原度方面,新工具的表现都令人印象深刻。  

Tripo建模效果



Tripo 2.0实测



此次更新的Tripo 2.0可以在几秒内生成几何形状的预览,紧接着再用几秒为其生成纹理和PBR。
用户既可以通过输入文本提示(prompt)生成3D模型,也可以输入单张图片生成模型,每次都可以生成4个模型,从中挑选。此外, Tripo 1.4 还支持从正视、侧视、后视等多张图片生成3D模型。  
目前,Tripo 2.0 已正式上线,事不宜迟直接开测。  

#构建现实中的物体

首先测试一波对真实物品的还原程度,比如手边的一个玩偶熊,输入一段描述词:” 一个坐着的穿着红色毛衣红色帽子和棕红色背带裤的毛茸茸的玩偶熊  “,确实是细节满满,所有提及的特征都有显现。就文生模型而言,没法苛求太多。

玩偶熊文生模型,来源:Tripo 官网


接下来测试一下单张图片生成模型,可以看到大体上做到了几何和外观的准确还原,但是细看之下帽子、衣服的细节还有不少优化空间,不过最惊艳的是背部的建模,在只有单张正视图片输入的情况下,几乎完美还原了玩偶的背部特征,比如背带和露出来的小短尾,好评!

玩偶熊图生模型,来源:Tripo 官网

#构建虚拟世界中的物体

下面我们来试试能不能直接构建电影世界中的神奇生物。

输入“神奇动物在哪里中的嗅嗅”,可以发现产出的模型确实和嗅嗅有着微妙的联系,比如都有黑色的毛发、扁长的嘴巴,但仔细一看又是天差地别,完全是不同的生物。

嗅嗅文生模型,来源:Tripo 官网


如果说文生模型可能存在版权问题,那么再试试图生模型,直接给定一张嗅嗅的剧照,尽管输入图片的质量有点糟糕,环境十分昏暗,但生成的模型意外的相当靠谱,背部细节也是有模有样。

嗅嗅图生模型,来源:Tripo 官网

此外,生成好的模型还支持一键绑定骨骼和风格化,并且支持包括glb、fbx、obj、stl等多种主流格式输出。

模型调整与输出,来源:Tripo 官网



Tripo 2.0如何炼成?



从技术层面深入剖析,可以发现Tripo 2.0 在实现过程中几乎全面贯彻了“3D Scaling Law”的理念。


首先,它基于一个包含千万级高质量3D数据的大型数据库,采用概率生成式建模方法,通过学习大规模数据中的几何和材质分布,从而确保输出的质量、增强模型的鲁棒性和泛化能力。


其次,Tripo 2.0 采用了 DiT U-Net 模型的复杂混合架构。DiT 擅长捕捉3D结构中的全局上下文和长距离依赖关系,而 U-Net 则擅长保留精细的细节和局部特征。这种架构的融合使 Tripo 2.0 能够在全局和局部层面都表现出色。


此外,Tripo 2.0 采用了最先进的训练算法。其几何和材质生成模型都基于最先进的大规模流模型,拥有数十亿参数。同时,通过采用 guidance distillation 和 step distillation 技术,Tripo 2.0 在不牺牲质量的前提下大幅优化了性能,提高了效率


在这些技术的加持下,Tripo 2.0 在3D形状生成纹理质量细节表现输入条件的遵循性以及输出多样性等方面都取得了新的SOTA成绩,货真价实的“六边形战士”。  

Tripo与其它SOTA模型定量对比


槿墨AI
产品服务

结合大模型通用知识及在交通、社会治理、安全生产、自然资源等行业领域的知识,深入业务场景,精确捕获用户意图,为用户提供智能问答、数据分析、报表生成、工作任务理解与执行等一系列服务

📞若您有相关需求,欢迎点击下方链接与我们沟通洽谈

🗨️也可以在公众号后台给我们留言


槿墨AI
开启探索人类未来命运的旅程,拥抱如槿似墨的无限可能。
 最新文章