摘要
变压器广泛应用于各种领域,其中许多生成稀疏或部分填充的注意力矩阵。例如,设计用于减少注意力二次复杂性的注意力掩码、序列打包技术以及最近的创新如用于MEDUSA快速验证的树掩码。尽管这些矩阵本质上是稀疏的,最先进的算法Flash Attention仍然以二次复杂性处理它们,仿佛它们是稠密的。在本文中,我们引入了二进制块掩码,一种高度有效的修改,增强了Flash Attention,使其具备掩码感知能力。我们进一步提出了两种优化:一种针对具有连续非零模式的掩码,另一种针对极其稀疏的掩码。我们在源自真实世界场景的注意力掩码上的实验显示了高达9倍的运行时间改进。该实现将公开发布,以促进进一步的研究和应用。