摘要
arXiv:2409.10489v4 宣布类型: replace-cross
摘要:近年来,状态空间模型架构在高效序列建模方面展现出了巨大的潜力,但在计算效率与模型表达能力之间的平衡上仍然存在挑战。我们提出了Flash STU架构,这是一种混合模型,交替使用谱状态空间模型层与滑动窗口注意力,使得在保持近线性时间复杂度的同时,能够扩展到数十亿参数的语言建模。我们在多种序列预测任务上评估了Flash STU及其变体,包括线性动力系统、机器人控制和语言建模。我们发现,在固定参数预算的情况下,Flash STU架构始终优于Transformer及其他领先的状态空间模型,如S4和Mamba-2。