LLM2D
将多视图扩散模型提炼为3D生成器
Distilling Multi-view Diffusion Models into 3D Generators
作者: Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.00457v3

摘要

arXiv:2504.00457v3 宣告类型: replace-cross 摘要: 我们介绍了DD3G,一种将多视角扩散模型(MV-DM)提炼成3D生成器的方法,利用高斯点渲染。DD3G通过对MV-DM进行常微分方程(ODE)轨迹模拟,压缩和整合了大量的视觉和空间几何知识,确保提炼出的生成器在仅使用3D数据训练的生成器中表现更好。与之前的近似优化方法不同,我们对MV-DM和3D生成器的表示空间进行了对齐,将教师的概率流转移到学生,从而避免了由于概率抽样而导致优化目标的一致性问题。引入概率流以及3D高斯中的各种属性耦合在生成过程中带来了挑战。为了解决这个问题,我们提出了PEPD生成器,包含模式提取和渐进解码阶段,允许高效融合概率流,并能在0.06秒内将单张图像转换为3D高斯。此外,为了减少知识损失并克服稀疏视角监督,我们设计了一种联合优化目标,通过显式监督和隐式验证确保生成样本的质量。利用现有的2D生成模型,我们编译了120,000张高质量的RGBA图像进行提炼。在合成和公开数据集上的实验表明了我们方法的有效性。我们的项目可在 https://qinbaigao.github.io/DD3G_project/ 获取。