摘要
arXiv:2503.16302v2 通知类型: 更换交叉引用
摘要:通过所谓的“原生”3D扩散的发展,3D形状生成取得了巨大的进展,特别是在Vecset Diffusion Model (VDM)方面。尽管近期的进展在生成高分辨率3D形状方面显示出有希望的结果,但VDM仍然难以实现高速生成。这些挑战不仅源于加速扩散采样的困难,还源于VDM中的VAE解码,这些领域在以前的研究中尚未得到充分探索。为了解决这些挑战,我们提出了FlashVDM,这是一个系统框架,用于加速VDM中的VAE和DiT。对于DiT,FlashVDM使得通过最少5个推理步骤就能实现灵活的扩散采样,且质量相当,这得益于我们新引入的分阶段流蒸馏对一致性蒸馏的稳定。对于VAE,我们引入了一个闪电vecset解码器,配备有自适应KV选择、分层体积解码以及高效网络设计。通过利用vecset的局部性和体积中形状表面的稀疏性,我们的解码器极大地降低了FLOPs,从而最小化了整体解码开销。我们将FlashVDM应用于Hunyuan3D-2,得到Hunyuan3D-2 Turbo。通过系统性的评估,我们展示了我们的模型显著优于现有的快速3D生成方法,在重建上减少了超过45倍的推理时间,在生成上减少了32倍的推理时间,同时达到了与最先进的方法相当的性能。代码和模型可在https://github.com/Tencent/FlashVDM获得。