摘要
arXiv:2502.10389v1 Announce Type: cross
摘要:扩散模型(DMs)已成为各领域生成任务的首选方法。然而,它们依赖于多次序列前向传递,这严重限制了实时性能。先前的加速方法主要集中在减少采样步骤的数量或重用中间结果上,但未能利用图像内部空间区域间的变异,因为卷积U-Net结构的限制。通过利用扩散变换器(DiTs)处理可变数量标记的灵活性,我们引入了RAS,这是一种无需训练的新型采样策略,根据DiT模型的焦点动态地为图像内的不同区域分配不同的采样比例。我们的关键观察是,在每次采样步骤中,模型集中在语义上有意义的区域,而这些焦点区域在连续步骤中表现出强烈的连续性。利用这一洞察,RAS仅更新当前在焦点的区域,而其他区域则使用上一步缓存的噪声进行更新。模型的焦点是根据上一步的输出确定的,利用了我们观察到的时间一致性。我们在Stable Diffusion 3和Lumina-Next-T2I上评估了RAS,分别实现了2.36倍和2.51倍的速度提升,同时生成质量几乎没有下降。此外,用户研究显示,RAS在人类评估中提供了相当的质量,同时实现了1.6倍的速度提升。我们的方法为更高效的扩散变换器迈出了重要一步,增强了其在实时应用中的潜力。