摘要
arXiv:2410.18974v2 宣布类型: replace-cross
摘要:多视图图像扩散模型在开放域3D对象生成方面取得了显著进展。然而,大多数现有模型依赖于缺乏固有3D偏见的二维网络架构,导致几何一致性受损。为了解决这一挑战,我们引入了3D-Adapter,这是一个插件模块,旨在将3D几何意识注入到预训练图像扩散模型中。我们的方法的核心思想是3D反馈增强:在采样循环中的每个去噪步骤中,3D-Adapter将中间的多视图特征解码为一致的3D表示,然后通过特征添加将渲染的RGBD视图重新编码以增强预训练的基础模型。我们研究了3D-Adapter的两种变体:一种基于高斯插值的快速前馈版本,以及一种利用神经场和网格进行无训练版本的多功能版本。我们的大量实验表明,3D-Adapter不仅大幅提高了如Instant3D和Zero123++等文本到多视图模型的几何质量,还使得使用普通的文本到图像Stable Diffusion模型生成高质量3D内容成为可能。此外,我们通过在文本到3D、图像到3D、文本到纹理和文本到avatar任务中展示高质的结果,展示了3D-Adapter广泛的应用潜力。