摘要
arXiv:2502.13685v1 Announce Type: cross
摘要:线性序列建模方法,如线性注意力、状态空间建模和线性RNN,通过降低训练和推理的复杂性提供了显著的效率改进。然而,这些方法通常将整个输入序列压缩到一个固定大小的内存状态中,这会导致在需要大量回忆的下游任务上表现不佳。受神经科学的启发,特别是大脑在维护稳健长期记忆的同时避免“记忆干扰”的能力,我们提出了一种名为Mixture-of-Memories(MoM)的新型架构。MoM利用多个独立的内存状态,通过路由器网络将输入标记导向特定的内存状态。这种方法显著增强了整体内存容量,同时最大限度地减少了内存干扰。因此,MoM在需要大量回忆的任务上表现优异,超越了现有的线性序列建模技术。尽管包含了多个内存状态,计算每个内存状态的复杂度依然保持线性,使MoM在训练期间保留了线性复杂度的优势,而在推理期间保持恒定复杂度。我们的实验结果显示,MoM在下游语言任务中,特别是在需要大量回忆的任务上,显著优于现有的线性序列模型,并且其性能甚至可以匹种植天然语言处理模型(Transformer模型)。代码在https://github.com/OpenSparseLLMs/MoM 和 https://github.com/OpenSparseLLMs/Linear-MoE中发布。