LLM2D

摘要

arXiv:2408.09380v4 宣告类型: 替换摘要: 当前最先进的序列推荐模型严重依赖于 transformer 的注意力机制。然而，自我注意的二次时间和内存复杂性限制了其在建模用户长范围行为序列时的可扩展性。为了解决这个问题，我们提出了 ELASTIC，一种高效的线性注意力，用于序列兴趣压缩，只需要线性时间复杂性，并且将模型能力与计算成本脱钩。具体来说，ELASTIC 引入了一个固定长度的兴趣专家，以及线性调度器注意力机制，将长时行为序列压缩为一个显著更紧凑的表示，与以往方法相比，可以将 GPU 内存使用量减少高达 90%，同时 inference 速度提升 x2.7 倍。所提出的线性调度器注意力机制显著减少了二次复杂性，使模型能够有效地建模极长序列。此外，为了保留建模多种用户兴趣的能力，ELASTIC 初始化了一个庞大的可学习兴趣记忆库，并从记忆中稀疏检索压缩的用户兴趣，计算成本微乎其微。所提出的兴趣记忆检索技术大大扩展了可用兴趣空间的基数，同时保持相同的计算成本，从而在推荐准确性和效率之间达成权衡。为了验证我们提出的 ELASTIC 的有效性，我们在多个公开数据集上进行了广泛的实验，并将其与几种强大的序列推荐器进行了比较。实验结果表明，ELASTIC 在多个基准方法上持续表现出显著的优越性，并且还突出了 ELASTIC 在建模长序列时的计算效率。我们将发布我们的实现代码。