LLM2D

摘要

arXiv:2410.18974v2 宣布类型: replace-cross 摘要：多视图图像扩散模型在开放域3D对象生成方面取得了显著进展。然而，大多数现有模型依赖于缺乏固有3D偏见的二维网络架构，导致几何一致性受损。为了解决这一挑战，我们引入了3D-Adapter，这是一个插件模块，旨在将3D几何意识注入到预训练图像扩散模型中。我们的方法的核心思想是3D反馈增强：在采样循环中的每个去噪步骤中，3D-Adapter将中间的多视图特征解码为一致的3D表示，然后通过特征添加将渲染的RGBD视图重新编码以增强预训练的基础模型。我们研究了3D-Adapter的两种变体：一种基于高斯插值的快速前馈版本，以及一种利用神经场和网格进行无训练版本的多功能版本。我们的大量实验表明，3D-Adapter不仅大幅提高了如Instant3D和Zero123++等文本到多视图模型的几何质量，还使得使用普通的文本到图像Stable Diffusion模型生成高质量3D内容成为可能。此外，我们通过在文本到3D、图像到3D、文本到纹理和文本到avatar任务中展示高质的结果，展示了3D-Adapter广泛的应用潜力。