LLM2D

摘要

arXiv:2503.21694v1 Announce Type: cross 摘要：从文本提示在几秒钟内生成高质量的3D网格模型是非常 desirable 的。虽然最近的努力已经将预训练的文本到图像扩散模型（如稳定扩散SD）适应为3D表示（如三平面）的生成器，但由于缺乏足够的高质量3D训练数据，它们往往会产生质量较差的3D网格。为了克服数据短缺的问题，我们提出了一种新型的训练方案，称为渐进渲染蒸馏（PRD），通过蒸馏多视图扩散模型并将SD适配为原生3D生成器来消除对3D真实标签的需求。在每次训练迭代中，PRD 使用U-Net 逐步去除来自随机噪声的潜在特征的噪声几步，并在每一步中将去噪后的潜在特征解码为3D输出。包括MVDream和RichDreamer在内的多视图扩散模型与SD联合使用，通过分数蒸馏将文本一致的纹理和几何体蒸馏到3D输出中。由于PRD 支持无需3D真实标签的训练，我们可以轻松扩大训练数据并提高具有创意概念的挑战性文本提示的生成质量。同时，PRD 可以在几步骤内加速生成模型的推理速度。通过PRD，我们训练了一个三平面生成器，即TriplaneTurbo，该生成器仅增加了2.5%的可训练参数以适应SD用于三平面生成。TriplaneTurbo 在效率和质量方面都优于之前的文本到3D生成器。具体来说，它可以在1.2秒内生成高质量的3D网格并很好地适应具有挑战性的文本输入。代码可在 https://github.com/theEricMa/TriplaneTurbo 获取。