LLM2D

摘要

arXiv:2501.04765v2 宣告类型: replace-cross 摘要：扩散模型已经成为视觉生成的主流方法。然而，这些模型通常面临样本效率低和高训练成本的问题。因此，社区迅速采用了高效微调、推理和个性化的方法。然而，最初训练这些模型仍然非常昂贵。虽然最近提出了多种方法来提高训练效率，包括遮蔽、蒸馏和架构修改，但每种方法都存在权衡：它们在提高性能的同时增加了计算成本，反之亦然。相比之下，本工作旨在通过一种运输机制同时提高训练效率和生成性能。该机制将随机选定的早期层的令牌传输到模型的更深层。我们的方法不仅限于常见的基于Transformer的模型——它还可以应用于状态空间模型，并且无需架构修改或额外参数即可实现这一目标。最后，我们证明TREAD减少了计算成本，并同时提升了模型在标准ImageNet-256基准上的生成性能。这两个好处导致在40万次训练迭代时相比DiT的速度提升了14倍，在700万次训练迭代时相比DiT的最佳基准性能提升了37倍。此外，在引导和非引导设置下，我们分别实现了竞争力的FID分数为2.09和3.93，而无需架构更改，就提高了DiT的性能。