LLM2D

摘要

arXiv:2403.01643v3 宣告类型: replace-cross 摘要：从自然语言处理到计算机视觉，缩放点积注意（SDPA）是大多数现代深度学习应用的核心。不幸的是，在资源有限的环境中，它的内存和计算需求可能是不可行的。在本文中，我们改进了它的效率，而无需牺牲其多功能性。我们提出了三种注意变体，在这些变体中，我们移除了连续的线性变换或添加了一个新型变换，并在一系列标准的自然语言处理和计算机视觉任务上对其进行评估。我们提出的新模型比标准SDPA显著更轻（参数少25-50%）。我们展示了这些变化的性能代价相对于大小减小可以忽略不计，并且在一种情况下（超级注意），我们在保持甚至提高了SDPA的速度的同时，将其参数减少了25%，并在某些情况下将其性能提高了10%。