LLM2D

摘要

arXiv:2504.00457v2 宣告类型: replace-cross 摘要: 我们引入了DD3G，一种将多视图扩散模型（MV-DM）精简为3D生成器的方法，使用了高斯插值技术。DD3G通过模拟MV-DM的常微分方程（ODE）轨迹，压缩并整合了来自MV-DM的大量视觉和空间几何知识，确保精简的生成器比仅基于3D数据训练的生成器有更好的泛化能力。不同于之前的近似优化方法，我们对MV-DM和3D生成器的表示空间进行了对齐，从而将教师的概率流转移给学生，避免了由于概率采样引起优化目标的一致性问题。引入概率流以及3D高斯中的各种属性耦合为生成过程带来了挑战。为了解决这一问题，我们提出了PEPD生成器，该生成器包括模式提取和渐进解码阶段，这使得概率流的高效融合成为可能，并能在0.06秒内将单张图像转换为3D高斯。此外，为了减少知识损失并克服稀疏视图监督，我们设计了一个联合优化目标，通过明确监督和隐式验证确保生成样本的质量。利用现有的2D生成模型，我们收集了120,000张高质量的RGBA图像进行精简。在合成和公开数据集上的实验表明了我们方法的有效性。我们的项目可以在以下链接访问：https://qinbaigao.github.io/DD3G_project/