LLM2D
将多视图扩散模型精炼为3D生成器
Distilling Multi-view Diffusion Models into 3D Generators
作者: Hao Qin, Luyuan Chen, Ming Kong, Mengxu Lu, Qiang Zhu
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.00457v2

摘要

arXiv:2504.00457v2 宣告类型: replace-cross 摘要: 我们引入了DD3G,一种将多视图扩散模型(MV-DM)精简为3D生成器的方法,使用了高斯插值技术。DD3G通过模拟MV-DM的常微分方程(ODE)轨迹,压缩并整合了来自MV-DM的大量视觉和空间几何知识,确保精简的生成器比仅基于3D数据训练的生成器有更好的泛化能力。不同于之前的近似优化方法,我们对MV-DM和3D生成器的表示空间进行了对齐,从而将教师的概率流转移给学生,避免了由于概率采样引起优化目标的一致性问题。引入概率流以及3D高斯中的各种属性耦合为生成过程带来了挑战。为了解决这一问题,我们提出了PEPD生成器,该生成器包括模式提取和渐进解码阶段,这使得概率流的高效融合成为可能,并能在0.06秒内将单张图像转换为3D高斯。此外,为了减少知识损失并克服稀疏视图监督,我们设计了一个联合优化目标,通过明确监督和隐式验证确保生成样本的质量。利用现有的2D生成模型,我们收集了120,000张高质量的RGBA图像进行精简。在合成和公开数据集上的实验表明了我们方法的有效性。我们的项目可以在以下链接访问:https://qinbaigao.github.io/DD3G_project/