摘要
arXiv:2403.01643v3 宣告类型: replace-cross
摘要:从自然语言处理到计算机视觉,缩放点积注意(SDPA)是大多数现代深度学习应用的核心。不幸的是,在资源有限的环境中,它的内存和计算需求可能是不可行的。在本文中,我们改进了它的效率,而无需牺牲其多功能性。我们提出了三种注意变体,在这些变体中,我们移除了连续的线性变换或添加了一个新型变换,并在一系列标准的自然语言处理和计算机视觉任务上对其进行评估。我们提出的新模型比标准SDPA显著更轻(参数少25-50%)。我们展示了这些变化的性能代价相对于大小减小可以忽略不计,并且在一种情况下(超级注意),我们在保持甚至提高了SDPA的速度的同时,将其参数减少了25%,并在某些情况下将其性能提高了10%。