结构化3D潜在表示
用于可扩展多功能3D生成
向建峰1,3
吕泽龙2,3
徐思澄3
邓宇3
王瑞成2,3
张博文2,3
陈东3
童欣3
杨家龙3
1清华大学
2中国科学技术大学
3微软亚洲研究院
CVPR 2025 精华
(注意:这是TRELLIS项目唯一官方网页)
摘要:一种基于统一结构化潜在表示修正流变换器构建的原生3D生成模型,可实现多功能、高质量的3D资产创建。
我们提出了一种新颖的3D生成方法,用于多功能和高质量的3D资产创建。其基石是统一的结构化潜在表示(SLAT),它允许解码为不同的输出格式,例如辐射场、3D高斯和网格。这是通过将稀疏填充的3D网格与从强大的视觉基础模型中提取的密集多视图视觉特征相结合来实现的,全面捕捉结构(几何)和纹理(外观)信息,同时在解码过程中保持灵活性。
我们采用为SLAT量身定制的修正流变换器作为我们的3D生成模型,并在包含50万个不同对象的大型3D资产数据集上训练了参数多达20亿的模型。我们的模型在文本或图像条件下生成高质量的结果,显著超越了现有方法,包括最近的同等规模方法。我们展示了灵活的输出格式选择和局部3D编辑功能,这些功能是以前的模型所不具备的。代码、模型和数据将发布。

* 由 TRELLIS生成,使用其 图像到3D资产 功能。

此页面中显示的外观和几何形状分别由3D高斯和网格渲染。GLB文件通过将3D高斯的外观烘焙到网格中提取。

生成 | 文本到3D资产

所有文本提示均由GPT-4生成。点击卡片可查看提取的GLB文件。

生成 | 图像到3D资产

图像提示由DALL-E 3生成。点击卡片可查看提取的GLB文件。

编辑 | 资产变体

TRELLIS可以根据给定的文本提示生成给定3D资产的连贯变体。

编辑 | 局部操作

TRELLIS可以根据给定的文本或图像提示操作给定3D资产的目标局部区域。

应用 | 3D艺术设计

通过组合TRELLIS生成的高质量3D资产,可以轻松创建复杂而充满活力的3D艺术设计。

方法论

Pipeline of the method

我们引入了结构化潜在表示(SLAT),这是一种用于高质量、多功能3D生成的统一3D潜在表示。SLAT将稀疏结构与强大的视觉表示相结合。它在与对象表面相交的活动体素上定义局部潜在表示。局部潜在表示通过融合和处理从3D资产密集渲染视图中提取的图像特征进行编码,同时将它们附加到活动体素上。这些特征源自强大的预训练视觉编码器,捕捉了详细的几何和视觉特征,补充了活动体素提供的粗略结构。然后可以应用不同的解码器将SLAT映射到高质量的多样化3D表示。

SLAT的基础上,我们训练了一系列大型3D生成模型,命名为TRELLIS,以文本提示或图像作为条件。我们采用两阶段流水线,首先生成SLAT的稀疏结构,然后生成非空单元的潜在向量。我们采用修正流变换器作为我们的骨干模型,并对其进行适当调整以处理SLAT中的稀疏性。我们在精心收集的大型3D资产数据集上训练了参数多达20亿的Trellis。TRELLIS可以创建具有详细几何和生动纹理的高质量3D资产,显著超越了以前的方法。此外,它可以轻松生成具有不同输出格式的3D资产,以满足不同的下游需求。

引用

如果您发现我们的工作有用,请考虑引用:

@article{xiang2024structured, title = {Structured 3D Latents for Scalable and Versatile 3D Generation}, author = {Xiang, Jianfeng and Lv, Zelong and Xu, Sicheng and Deng, Yu and Wang, Ruicheng and Zhang, Bowen and Chen, Dong and Tong, Xin and Yang, Jiaolong}, journal = {arXiv preprint arXiv:2412.01506}, year = {2024} }

负责任的AI考量
TRELLIS纯粹是一个研究项目。负责任的AI考量已纳入所有阶段。本文中使用的数据集是公开的,并已审查以确保没有个人身份信息或有害内容。然而,由于这些数据集来源于互联网,潜在的偏见可能仍然存在。目前,该模型擅长生成艺术风格的3D资产,其生成逼真真实世界对象的能力有限。

材料免责声明
本页面提供的材料仅供学术和研究目的使用,用于探索文本到3D和图像到3D生成技术,如https://arxiv.org/abs/2412.01506上发布的出版物所述。这些材料不用于商业开发或使用。如果您认为本页面上的任何内容侵犯了您的知识产权,包括但不限于版权,请通过电子邮件 jiaoyan (at) microsoft.com 向我们提交删除请求进行通知。

TRELLIS: 用于可扩展多功能3D生成的结构化3D潜在表示
在GitHub上联系我们 隐私与Cookie 消费者健康隐私 使用条款 商标 © 2025 Microsoft