摘要
arXiv:2410.05317v4 宣告类型: replace-cross
摘要:扩散变换器在图像和视频合成方面显示出显著的有效性,但代价是巨大的计算成本。为了解决这个问题,已经引入了特征缓存方法,通过缓存之前时间步的特征并在后续时间步重用这些特征来加速扩散变换器。然而,之前的缓存方法忽略了不同令牌对特征缓存的敏感性不同,对某些令牌的特征缓存可能会比其他令牌对整体生成质量造成10倍以上的破坏。在本文中,我们引入了令牌级别的特征缓存,使我们能够适应性地选择最适合缓存的令牌,并进一步使我们能够在不同类型的神经层和不同深度中应用不同的缓存比例。在PixArt-$\alpha$、OpenSora和DiT上的广泛实验表明,我们的方法在图像和视频生成方面的有效性无需训练要求。例如,在OpenSora和PixArt-$\alpha$上分别实现了2.36倍和1.93倍的加速,生成质量几乎没有下降。