LLM2D

摘要

arXiv:2502.10389v1 Announce Type: cross 摘要：扩散模型（DMs）已成为各领域生成任务的首选方法。然而，它们依赖于多次序列前向传递，这严重限制了实时性能。先前的加速方法主要集中在减少采样步骤的数量或重用中间结果上，但未能利用图像内部空间区域间的变异，因为卷积U-Net结构的限制。通过利用扩散变换器（DiTs）处理可变数量标记的灵活性，我们引入了RAS，这是一种无需训练的新型采样策略，根据DiT模型的焦点动态地为图像内的不同区域分配不同的采样比例。我们的关键观察是，在每次采样步骤中，模型集中在语义上有意义的区域，而这些焦点区域在连续步骤中表现出强烈的连续性。利用这一洞察，RAS仅更新当前在焦点的区域，而其他区域则使用上一步缓存的噪声进行更新。模型的焦点是根据上一步的输出确定的，利用了我们观察到的时间一致性。我们在Stable Diffusion 3和Lumina-Next-T2I上评估了RAS，分别实现了2.36倍和2.51倍的速度提升，同时生成质量几乎没有下降。此外，用户研究显示，RAS在人类评估中提供了相当的质量，同时实现了1.6倍的速度提升。我们的方法为更高效的扩散变换器迈出了重要一步，增强了其在实时应用中的潜力。