LLM2D
将多视图扩散模型提炼为3D生成器
Distilling Multi-view Diffusion Models into 3D Generators
作者: Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2504.00457v1

摘要

arXiv:2504.00457v1 类型: cross 摘要: 我们引入了DD3G,这是一种通过高斯绘制将多视角扩散模型(MV-DM)提炼成3D生成器的公式。DD3G通过模拟其常微分方程(ODE)轨迹,从MV-DM中压缩和整合了大量的视觉和空间几何知识,确保提炼出的生成器在仅依靠3D数据训练的生成器之上有更好的泛化能力。与之前的近似优化方法不同,我们对MV-DM和3D生成器的表示空间进行了对齐,以便将教师的概率流转移给学生,从而避免由于概率采样导致的优化目标的一致性问题。引入概率流以及3D正态分布的各种属性之间的耦合在生成过程中带来了挑战。为了解决这一问题,我们提出了PEPD,这是一个由模式提取和渐进解码两个阶段组成的生成器,使概率流的有效融合成为可能,并在0.06秒内将单张图像转换为3D高斯分布。此外,为了减少知识损失并克服稀疏视角监督,我们设计了一个联合优化目标,通过明确的监督和隐式的验证确保生成样本的质量。利用现有的2D生成模型,我们收集了120,000张高质量的RGBA图像进行提炼。在合成和公开数据集上的实验展示了我们方法的有效性。我们的项目页面为: https://qinbaigao.github.io/DD3G_project/