用于可扩展多功能3D生成
我们采用为SLAT量身定制的修正流变换器作为我们的3D生成模型,并在包含50万个不同对象的大型3D资产数据集上训练了参数多达20亿的模型。我们的模型在文本或图像条件下生成高质量的结果,显著超越了现有方法,包括最近的同等规模方法。我们展示了灵活的输出格式选择和局部3D编辑功能,这些功能是以前的模型所不具备的。代码、模型和数据将发布。
* 由 TRELLIS生成,使用其 图像到3D资产 功能。
此页面中显示的外观和几何形状分别由3D高斯和网格渲染。GLB文件通过将3D高斯的外观烘焙到网格中提取。
所有文本提示均由GPT-4生成。点击卡片可查看提取的GLB文件。
图像提示由DALL-E 3生成。点击卡片可查看提取的GLB文件。
TRELLIS可以根据给定的文本提示生成给定3D资产的连贯变体。
TRELLIS可以根据给定的文本或图像提示操作给定3D资产的目标局部区域。
通过组合TRELLIS生成的高质量3D资产,可以轻松创建复杂而充满活力的3D艺术设计。
我们引入了结构化潜在表示(SLAT),这是一种用于高质量、多功能3D生成的统一3D潜在表示。SLAT将稀疏结构与强大的视觉表示相结合。它在与对象表面相交的活动体素上定义局部潜在表示。局部潜在表示通过融合和处理从3D资产密集渲染视图中提取的图像特征进行编码,同时将它们附加到活动体素上。这些特征源自强大的预训练视觉编码器,捕捉了详细的几何和视觉特征,补充了活动体素提供的粗略结构。然后可以应用不同的解码器将SLAT映射到高质量的多样化3D表示。
在SLAT的基础上,我们训练了一系列大型3D生成模型,命名为TRELLIS,以文本提示或图像作为条件。我们采用两阶段流水线,首先生成SLAT的稀疏结构,然后生成非空单元的潜在向量。我们采用修正流变换器作为我们的骨干模型,并对其进行适当调整以处理SLAT中的稀疏性。我们在精心收集的大型3D资产数据集上训练了参数多达20亿的Trellis。TRELLIS可以创建具有详细几何和生动纹理的高质量3D资产,显著超越了以前的方法。此外,它可以轻松生成具有不同输出格式的3D资产,以满足不同的下游需求。
如果您发现我们的工作有用,请考虑引用:
@article{xiang2024structured, title = {Structured 3D Latents for Scalable and Versatile 3D Generation}, author = {Xiang, Jianfeng and Lv, Zelong and Xu, Sicheng and Deng, Yu and Wang, Ruicheng and Zhang, Bowen and Chen, Dong and Tong, Xin and Yang, Jiaolong}, journal = {arXiv preprint arXiv:2412.01506}, year = {2024} }
负责任的AI考量
TRELLIS纯粹是一个研究项目。负责任的AI考量已纳入所有阶段。本文中使用的数据集是公开的,并已审查以确保没有个人身份信息或有害内容。然而,由于这些数据集来源于互联网,潜在的偏见可能仍然存在。目前,该模型擅长生成艺术风格的3D资产,其生成逼真真实世界对象的能力有限。
材料免责声明
本页面提供的材料仅供学术和研究目的使用,用于探索文本到3D和图像到3D生成技术,如https://arxiv.org/abs/2412.01506上发布的出版物所述。这些材料不用于商业开发或使用。如果您认为本页面上的任何内容侵犯了您的知识产权,包括但不限于版权,请通过电子邮件 jiaoyan (at) microsoft.com 向我们提交删除请求进行通知。