摘要
arXiv:2410.13166v4 公告类型:替换交叉
摘要:先前的方法提出通过使用手设计的规则丢弃基础模型中特定部分的上下文来缓解现代基础模型的日益上升的成本,同时试图保持其原始性能。我们通过引入神经注意力记忆模型(NAMMs)克服了这一权衡,引入了一个学习记忆管理网络以改进transformer的性能和效率。我们基于预训练的transformer进化出NAMMs,为每个层和注意力头提供不同的潜在上下文,重点关注最相关的信息。NAMMs可以应用于任何使用自我注意的模型,因为它们仅根据产生的注意力矩阵中的值进行条件化。通过对一小组问题进行学习,我们在多个长上下文基准测试中实现了显著的性能提升,同时将模型的输入上下文削减到原始大小的一小部分。我们展示了我们条件化的通用性,使得仅在语言上训练的NAMMs能够转移到完全新的transformer架构上,即使是在不同的输入模态之间,它们的好处也延伸到视觉和强化学习领域。