LLM2D

摘要

arXiv:2502.14831v1 类型: cross 摘要：潜扩散模型已成为生成高质量图像和视频的领先方法，利用压缩的潜空间表示来减轻扩散过程的计算负担。尽管最近的研究主要集中在扩展扩散主干和提高自编码器的重构质量上，但这些组件之间的交互却得到了相对较少的关注。在本文中，我们对现代自编码器进行了频谱分析，并发现其潜空间中存在异常高的高频分量，特别是在瓶颈通道尺寸大的自编码器中尤为显著。我们假设这种高频分量干扰了扩散合成过程中的自底向上性质，从而阻碍了生成质量。为了解决这一问题，我们提出了尺度不变性：这是一种简单的设计策略，通过强制解码器在不同频率上保持尺度不变性，来对齐潜空间和RGB空间。这种方法只需少量代码更改，并且最多只需要20,000次自编码器微调步骤，但显著提高了生成质量，在ImageNet-1K 256x256图像生成中将FID降低了19%，在Kinetics-700 17x256x256视频生成中将FVD降低了至少44%。