小米SU7璀璨洋红限定色360°全景图首次曝光？TRELLIS给你答案，实现可扩展多功能3D生成。

文摘 2025-01-02 00:12 江苏

清华大学、中国科学技术大学、微软研究院联合提出T RELLIS，这是一个大型 3D 资产生成模型，可根据文本或图像提示（使用 GPT-4o 和 DALL-E3）以各种格式生成高质量的 3D 资产，可在大约 10 秒内实现多功能生成，提供具有 3D 高斯或辐射场的生动外观和具有网格的详细几何图形，还支持灵活的 3D 编辑。主要特点总结如下：

高品质：它可以生成具有复杂形状和纹理细节的多样化高品质 3D 资产。
多功能性：它采用文本或图像提示，可以生成各种最终的 3D 表示，包括但不限于辐射场、3D 高斯和网格，以满足不同的下游要求。
灵活编辑：它允许轻松编辑生成的 3D 资产，例如生成同一对象的变体或 3D 资产的本地编辑。

来看一下小米SU7 2025璀璨洋红限定色的360°全景图生成效果：

该方法可根据文本或图像提示（使用 GPT-4o 和 DALL-E 3）以各种格式生成高质量的 3D 资产。我们的方法可在大约 10 秒内实现多功能生成，提供具有 3D 高斯或辐射场的生动外观和具有网格的详细几何图形。它还支持灵活的 3D 编辑。放大后效果最佳。

unsetunset相关链接unsetunset

论文：https://arxiv.org/pdf/2412.01506
代码：https://github.com/Microsoft/TRELLIS
试用：https://huggingface.co/spaces/JeffreyXiang/TRELLIS

unsetunset论文介绍unsetunset

unsetunset摘要unsetunset

我们引入了一种新颖的 3D 生成方法，用于创建多功能、高质量的 3D 资产。其基石是统一的结构化 LATent ( SL AT ) 表示，它允许解码为不同的输出格式，例如辐射场、3D 高斯和网格。这是通过将稀疏填充的 3D 网格与从强大的视觉基础模型中提取的密集多视图视觉特征相结合来实现的，全面捕获结构（几何）和纹理（外观）信息，同时保持解码过程中的灵活性。我们采用为SL AT量身定制的整流变压器作为我们的 3D 生成模型，并在包含 500K 个不同对象的大型 3D 资产数据集上训练具有多达 20 亿个参数的模型。我们的模型在文本或图像条件下生成高质量的结果，大大超越了现有方法，包括最近在类似规模下的方法。我们展示了以前的模型不提供的灵活的输出格式选择和本地 3D 编辑功能。代码、模型和数据即将发布。

unsetunset生成|文本转 3D 资源unsetunset

所有文本提示均由 GPT-4 生成。

unsetunset生成|图像转为 3D 资产unsetunset

图像提示由 DALL-E 3 生成或从 SA-1B 中提取

unsetunset编辑|资产变体unsetunset

T RELLIS 可以生成与给定的文本提示一致的给定 3D 资产的变体。

unsetunset方法介绍unsetunset

论文引入了结构化 LATents ( SL AT )，这是一种统一的 3D 潜在表示，用于高质量、多功能的 3D 生成。SL AT 将稀疏结构与强大的视觉表示结合在一起。它定义与物体表面相交的活动体素上的局部潜在特征。通过融合和处理来自 3D 资产密集渲染视图的图像特征来对局部潜在特征进行编码，同时将它们附加到活动体素上。这些特征来自强大的预训练视觉编码器，可捕捉详细的几何和视觉特征，补充活动体素提供的粗略结构。然后可以应用不同的解码器将SL AT映射到高质量的各种 3D 表示。

在SL AT 的基础上训练了一系列大型 3D 生成模型，称为T RELLIS，以文本提示或图像为条件。我们应用了一个两阶段管道，首先生成SL AT的稀疏结构，然后生成非空单元的潜在向量。采用整流流变压器作为我们的主干模型，并对其进行适当调整以处理SL AT中的稀疏性。我们在精心收集的大型 3D 资产数据集上使用多达 20 亿个参数训练 Trellis。T RELLIS可以创建具有详细几何形状和生动纹理的高质量 3D 资产，大大超越了以前的方法。此外，它可以轻松生成具有不同输出格式的 3D 资产，以满足不同的下游要求。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

NeurIPS 2024 | SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

阿里达摩院提出开源AI图片上色模型DDColor:可以为黑白照片、人物、动漫风景等一键上色!

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

2024 AI TimeLine 回顾（独家视角）

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。

提出街景定位大模型AddressCLIP：一张图实现街道级精度定位！

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

Open-Sora: 让所有人都能轻松制作高效视频,可生成16秒720P视频，模型代码全开源！

Face2QR:可根据人脸图像生成二维码，还可以扫描，以后个人名片就这样用了！

AI生成大片，Movie Gen可以生成长视频并配上完美的音效，带给观众更好的观看体验。

组件可控个性化生成方法MagicTailor：生成过程可自由地定制ID。

Google发布新AI工具Whisk：使用图像提示代替文本，快速完成视觉构思。

多模态图像生成模型Qwen2vl-Flux，利用Qwen2VL视觉语言能力增强FLUX，可集成ControlNet

字节 & 清华大学提出 AnyDressing ：通过潜在扩散模型实现可定制的多服装虚拟试穿。

NVIDIA发布GeForce RTX 50 系列，图形性能翻倍，售价549美元起！

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

复旦&字节提出layout-to-image新范式，支持基于布局的MM-DiT架构下可控图像生成！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

单幅图像合成 360° 3D场景的新方法：PanoDreamer，可同时生成全景图像和相应的深度信息。

提出街景定位大模型AddressCLIP：一张图实现街道级精度定位！

谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了。

ComfyUI | Flux实拍与卡通风格lora推荐, 用于一键生成创意图像，支持用户输入特定描述。

设计小白秒变大师？AnyDesign：你的时尚图像编辑神器！

东京大学 | Adobe 提出InstructMove，可通过观察视频中的动作来实现基于指令的图像编辑。

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化

北航 | 第一个多功能即插即用适配器MV-Adapter：轻松实现多视图一致图像生成。

NeurIPS 2024 | SHMT：通过潜在扩散模型进行自监督分层化妆转移（阿里&武汉理工）

字节 & 清华大学提出 AnyDressing ：通过潜在扩散模型实现可定制的多服装虚拟试穿。

NeurIPS2024 | OCR-Omni来了！字节&华师提出统一的多模态生成模型TextHarmony。

Adobe发布TurboEdit：可以通过文本来编辑图像，编辑时间<0.5秒！

DeepSeek-V3 正式发布，已在网页端和 API 全面上线，性能领先，速度飞跃。

港大&Adobe提出通用生成框架UniReal：通过学习真实世界动态实现通用图像生成和编辑。

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

一个LoRA同时处理内容和风格？UIUC提出UnZipLoRA，可同时训练两个LoRA，与原有LoRA兼容。

小米SU7璀璨洋红限定色360°全景图首次曝光？TRELLIS给你答案，实现可扩展多功能3D生成。

复旦&微软提出StableAnimator：可实现高质量和高保真的ID一致性人类视频生成

Qwen团队重磅上线视觉推理大模型QVQ-72B-preview，一键解答作业难题。

图像超分辨新SOTA！南洋理工提出InvSR,利用大模型图像先验提高SR性能, 登上Huggingface热门项目。

可控人物图像生成统一框架Leffa，可精确控制虚拟试穿和姿势转换！

MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

文生图像编辑来了！英伟达提出Add-it，无需训练，可根据文本提示向图像添加对象。

组件可控个性化生成方法MagicTailor：生成过程可自由地定制ID。

InstructG2I：从多模态属性图合成图像，结合文本和图信息生成。

厦门大学联合网易提出StoryWeaver，可根据统一模型内给定的角色实现高质量的故事可视化

创作智能助手，能够根据剧本文字和对话自动检索电影并可视化！

统一的图像生成模型OmniGen：可以根据多模态提示直接生成各种图像，无需额外插件。

GroundingBooth：一个用于文本到图像的定制框架，支持多主题和文本联合接地定制！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉