LLM2D

摘要

arXiv:2502.03444v1 宣告类型: cross 摘要: 近期在潜变量扩散模型方面的进展表明了其在高分辨率图像合成中的有效性。然而，从分词器获取潜变量空间以更好地学习和生成扩散模型的特性仍然被忽视。从理论和实验的角度来看，我们发现生成质量的改进与具有更好结构的潜分布密切相关，例如具有较少的高斯混合模式和更多区分性特征的分布。受这些见解的启发，我们提出了一个利用掩码建模以学习语义丰富潜空间同时保持重建保真度的自编码器（AE）。广泛的实验证明了我们的分析，表明自编码器的变分形式并非必要，仅凭AE本身生成的辨别性潜空间就能在使用128个分词单元的情况下达到ImageNet生成的最先进性能。MAETok实现了显著的实际改进，使得在训练速度提高76倍和512x512生成的推理吞吐量提高31倍的情况下，gFID达到1.69。我们的研究结果表明，潜空间的结构而非变分约束对于有效的扩散模型至关重要。代码和训练模型已发布。