LLM2D
区域自适应采样for扩散变换器
Region-Adaptive Sampling for Diffusion Transformers
作者: Ziming Liu, Yifan Yang, Chengruidong Zhang, Yiqi Zhang, Lili Qiu, Yang You, Yuqing Yang
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.10389v1

摘要

arXiv:2502.10389v1 Announce Type: cross 摘要:扩散模型(DMs)已成为各领域生成任务的首选方法。然而,它们依赖于多次序列前向传递,这严重限制了实时性能。先前的加速方法主要集中在减少采样步骤的数量或重用中间结果上,但未能利用图像内部空间区域间的变异,因为卷积U-Net结构的限制。通过利用扩散变换器(DiTs)处理可变数量标记的灵活性,我们引入了RAS,这是一种无需训练的新型采样策略,根据DiT模型的焦点动态地为图像内的不同区域分配不同的采样比例。我们的关键观察是,在每次采样步骤中,模型集中在语义上有意义的区域,而这些焦点区域在连续步骤中表现出强烈的连续性。利用这一洞察,RAS仅更新当前在焦点的区域,而其他区域则使用上一步缓存的噪声进行更新。模型的焦点是根据上一步的输出确定的,利用了我们观察到的时间一致性。我们在Stable Diffusion 3和Lumina-Next-T2I上评估了RAS,分别实现了2.36倍和2.51倍的速度提升,同时生成质量几乎没有下降。此外,用户研究显示,RAS在人类评估中提供了相当的质量,同时实现了1.6倍的速度提升。我们的方法为更高效的扩散变换器迈出了重要一步,增强了其在实时应用中的潜力。