摘要
文本到图像扩散模型在灵活且逼真的图像合成方面展现出前所未有的能力。然而,这些模型依赖于耗时的采样过程,这促使人们试图减少其延迟。在提高效率方面,研究人员通常使用原始扩散模型来训练一个额外的网络,专门用于快速图像生成。相比之下,我们的方法旨在直接减少延迟,无需任何重新训练、微调或知识蒸馏。特别地,我们发现注意力图的重复计算成本高昂且冗余,因此建议在采样过程中重复使用它们。我们特定的重复使用策略基于 ODE 理论,这意味着注意力图越晚被重复使用,最终图像的失真就越小。我们通过实验证明了这些重复使用策略与延迟相当的少步采样过程的比较,发现重复使用生成的图像更接近原始高延迟扩散模型生成的图像。