LLM2D

摘要

arXiv:2504.00457v1 类型: cross 摘要: 我们引入了DD3G，这是一种通过高斯绘制将多视角扩散模型（MV-DM）提炼成3D生成器的公式。DD3G通过模拟其常微分方程（ODE）轨迹，从MV-DM中压缩和整合了大量的视觉和空间几何知识，确保提炼出的生成器在仅依靠3D数据训练的生成器之上有更好的泛化能力。与之前的近似优化方法不同，我们对MV-DM和3D生成器的表示空间进行了对齐，以便将教师的概率流转移给学生，从而避免由于概率采样导致的优化目标的一致性问题。引入概率流以及3D正态分布的各种属性之间的耦合在生成过程中带来了挑战。为了解决这一问题，我们提出了PEPD，这是一个由模式提取和渐进解码两个阶段组成的生成器，使概率流的有效融合成为可能，并在0.06秒内将单张图像转换为3D高斯分布。此外，为了减少知识损失并克服稀疏视角监督，我们设计了一个联合优化目标，通过明确的监督和隐式的验证确保生成样本的质量。利用现有的2D生成模型，我们收集了120,000张高质量的RGBA图像进行提炼。在合成和公开数据集上的实验展示了我们方法的有效性。我们的项目页面为: https://qinbaigao.github.io/DD3G_project/