LLM2D

摘要

arXiv:2502.13685v1 Announce Type: cross 摘要：线性序列建模方法，如线性注意力、状态空间建模和线性RNN，通过降低训练和推理的复杂性提供了显著的效率改进。然而，这些方法通常将整个输入序列压缩到一个固定大小的内存状态中，这会导致在需要大量回忆的下游任务上表现不佳。受神经科学的启发，特别是大脑在维护稳健长期记忆的同时避免“记忆干扰”的能力，我们提出了一种名为Mixture-of-Memories（MoM）的新型架构。MoM利用多个独立的内存状态，通过路由器网络将输入标记导向特定的内存状态。这种方法显著增强了整体内存容量，同时最大限度地减少了内存干扰。因此，MoM在需要大量回忆的任务上表现优异，超越了现有的线性序列建模技术。尽管包含了多个内存状态，计算每个内存状态的复杂度依然保持线性，使MoM在训练期间保留了线性复杂度的优势，而在推理期间保持恒定复杂度。我们的实验结果显示，MoM在下游语言任务中，特别是在需要大量回忆的任务上，显著优于现有的线性序列模型，并且其性能甚至可以匹种植天然语言处理模型（Transformer模型）。代码在https://github.com/OpenSparseLLMs/MoM 和 https://github.com/OpenSparseLLMs/Linear-MoE中发布。