摘要
arXiv:2503.22796v1 宣传类型: cross
摘要:文本到图像生成模型,尤其是多模态扩散变换器(MMDiT),在生成高质量图像方面取得了显著进展。然而,这些模型经常面临显著的计算瓶颈,特别是在注意机制中,这阻碍了它们的可扩展性和效率。在这篇论文中,我们介绍了一种名为 DiTFastAttnV2 的后训练压缩方法,旨在加速 MMDiT 的注意机制。通过对 MMDiT 注意模式的深入分析,我们识别出与先前基于 DiT 的方法的关键差异,并提出了头向箭头注意力机制和缓存机制,以动态调整注意头,有效地弥合了这一差距。我们还设计了高效的融合内核以进一步加速。通过利用局部度量方法和优化技术,我们的方法显著缩短了最优压缩方案的搜索时间,仅需几分钟,同时保持了生成质量。此外,借助定制内核,DiTFastAttnV2 在不牺牲视觉保真度的情况下,实现了注意力 FLOPs 68% 的减少和端到端 1.5 倍的速度提升,适用于 2K 图像生成。