LLM2D

摘要

arXiv:2504.00457v3 宣告类型: replace-cross 摘要: 我们介绍了DD3G，一种将多视角扩散模型（MV-DM）提炼成3D生成器的方法，利用高斯点渲染。DD3G通过对MV-DM进行常微分方程（ODE）轨迹模拟，压缩和整合了大量的视觉和空间几何知识，确保提炼出的生成器在仅使用3D数据训练的生成器中表现更好。与之前的近似优化方法不同，我们对MV-DM和3D生成器的表示空间进行了对齐，将教师的概率流转移到学生，从而避免了由于概率抽样而导致优化目标的一致性问题。引入概率流以及3D高斯中的各种属性耦合在生成过程中带来了挑战。为了解决这个问题，我们提出了PEPD生成器，包含模式提取和渐进解码阶段，允许高效融合概率流，并能在0.06秒内将单张图像转换为3D高斯。此外，为了减少知识损失并克服稀疏视角监督，我们设计了一种联合优化目标，通过显式监督和隐式验证确保生成样本的质量。利用现有的2D生成模型，我们编译了120,000张高质量的RGBA图像进行提炼。在合成和公开数据集上的实验表明了我们方法的有效性。我们的项目可在 https://qinbaigao.github.io/DD3G_project/ 获取。