LLM2D
TREAD: Token路由以实现高效架构无关的扩散训练
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training
作者: Felix Krause, Timy Phan, Ming Gui, Stefan Andreas Baumann, Vincent Tao Hu, Bj\"orn Ommer
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2501.04765v2

摘要

arXiv:2501.04765v2 宣告类型: replace-cross 摘要:扩散模型已经成为视觉生成的主流方法。然而,这些模型通常面临样本效率低和高训练成本的问题。因此,社区迅速采用了高效微调、推理和个性化的方法。然而,最初训练这些模型仍然非常昂贵。虽然最近提出了多种方法来提高训练效率,包括遮蔽、蒸馏和架构修改,但每种方法都存在权衡:它们在提高性能的同时增加了计算成本,反之亦然。相比之下,本工作旨在通过一种运输机制同时提高训练效率和生成性能。该机制将随机选定的早期层的令牌传输到模型的更深层。我们的方法不仅限于常见的基于Transformer的模型——它还可以应用于状态空间模型,并且无需架构修改或额外参数即可实现这一目标。最后,我们证明TREAD减少了计算成本,并同时提升了模型在标准ImageNet-256基准上的生成性能。这两个好处导致在40万次训练迭代时相比DiT的速度提升了14倍,在700万次训练迭代时相比DiT的最佳基准性能提升了37倍。此外,在引导和非引导设置下,我们分别实现了竞争力的FID分数为2.09和3.93,而无需架构更改,就提高了DiT的性能。