摘要
arXiv:2502.07827v2 Announce Type: replace-cross
摘要:状态空间模型(SSMs)和变压器主导了语言模型的领域。然而,它们在计算复杂性上被限制在古典递归神经网络(RNNs)之下,限制了它们的表达能力。相比之下,在训练过程中RNNs缺乏并行化能力,提出了并行化与表达能力之间根本性权衡问题。我们提出了一种隐式状态空间模型,该模型通过迭代变换直到收敛到固定点。理论上,我们证明了隐式状态空间模型实现了RNNs的非线性状态转换。实证上,我们发现近似的固定点收敛就足够了,这使得我们可以设计一个大规模可扩展的训练课程,其中保持大部分并行化能力,只需对一小部分标记完全收敛。我们的方法在常规语言上展示了卓越的状态跟踪能力,超过了变压器和SSMs。我们进一步将隐式状态空间模型扩展到自然语言推理任务和大规模语言模型的预训练,达到13亿参数,约2070亿标记,据我们所知,这是迄今为止训练的最大隐式模型。值得注意的是,我们的隐式模型在标准基准测试中优于显式对应的模型。