LLM2D
低成本注意力机制在资源有限环境中:线性变换的必要性和充分性
Cost-Effective Attention Mechanisms for Low Resource Settings: Necessity & Sufficiency of Linear Transformations
作者: Peyman Hosseini, Mehran Hosseini, Ignacio Castro, Matthew Purver
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2403.01643v3

摘要

arXiv:2403.01643v3 宣告类型: replace-cross 摘要:从自然语言处理到计算机视觉,缩放点积注意(SDPA)是大多数现代深度学习应用的核心。不幸的是,在资源有限的环境中,它的内存和计算需求可能是不可行的。在本文中,我们改进了它的效率,而无需牺牲其多功能性。我们提出了三种注意变体,在这些变体中,我们移除了连续的线性变换或添加了一个新型变换,并在一系列标准的自然语言处理和计算机视觉任务上对其进行评估。我们提出的新模型比标准SDPA显著更轻(参数少25-50%)。我们展示了这些变化的性能代价相对于大小减小可以忽略不计,并且在一种情况下(超级注意),我们在保持甚至提高了SDPA的速度的同时,将其参数减少了25%,并在某些情况下将其性能提高了10%。