LLM2D

摘要

arXiv:2503.16302v2 通知类型: 更换交叉引用摘要：通过所谓的“原生”3D扩散的发展，3D形状生成取得了巨大的进展，特别是在Vecset Diffusion Model (VDM)方面。尽管近期的进展在生成高分辨率3D形状方面显示出有希望的结果，但VDM仍然难以实现高速生成。这些挑战不仅源于加速扩散采样的困难，还源于VDM中的VAE解码，这些领域在以前的研究中尚未得到充分探索。为了解决这些挑战，我们提出了FlashVDM，这是一个系统框架，用于加速VDM中的VAE和DiT。对于DiT，FlashVDM使得通过最少5个推理步骤就能实现灵活的扩散采样，且质量相当，这得益于我们新引入的分阶段流蒸馏对一致性蒸馏的稳定。对于VAE，我们引入了一个闪电vecset解码器，配备有自适应KV选择、分层体积解码以及高效网络设计。通过利用vecset的局部性和体积中形状表面的稀疏性，我们的解码器极大地降低了FLOPs，从而最小化了整体解码开销。我们将FlashVDM应用于Hunyuan3D-2，得到Hunyuan3D-2 Turbo。通过系统性的评估，我们展示了我们的模型显著优于现有的快速3D生成方法，在重建上减少了超过45倍的推理时间，在生成上减少了32倍的推理时间，同时达到了与最先进的方法相当的性能。代码和模型可在https://github.com/Tencent/FlashVDM获得。