LLM2D

摘要

arXiv:2503.22796v1 宣传类型: cross 摘要：文本到图像生成模型，尤其是多模态扩散变换器（MMDiT），在生成高质量图像方面取得了显著进展。然而，这些模型经常面临显著的计算瓶颈，特别是在注意机制中，这阻碍了它们的可扩展性和效率。在这篇论文中，我们介绍了一种名为 DiTFastAttnV2 的后训练压缩方法，旨在加速 MMDiT 的注意机制。通过对 MMDiT 注意模式的深入分析，我们识别出与先前基于 DiT 的方法的关键差异，并提出了头向箭头注意力机制和缓存机制，以动态调整注意头，有效地弥合了这一差距。我们还设计了高效的融合内核以进一步加速。通过利用局部度量方法和优化技术，我们的方法显著缩短了最优压缩方案的搜索时间，仅需几分钟，同时保持了生成质量。此外，借助定制内核，DiTFastAttnV2 在不牺牲视觉保真度的情况下，实现了注意力 FLOPs 68% 的减少和端到端 1.5 倍的速度提升，适用于 2K 图像生成。