LLM2D

摘要

arXiv:2502.07827v1 Announce Type: cross 摘要：状态空间模型（SSMs）和变压器在语言建模领域占据主导地位。然而，它们在计算复杂度上受到限制，低于经典的循环神经网络（RNNs），限制了它们的表达能力。相比之下，RNNs 在训练过程中缺乏并行化，引发了关于并行化与表达能力之间的权衡关系的基本问题。我们提出了一种隐式状态空间模型（implicit SSMs），通过迭代变换直到收敛到固定点。理论上，我们证明了隐式状态空间模型实现了RNNs的非线性状态转移。从经验上来看，我们发现仅需近似收敛到固定点就足够了，这使得我们可以设计一个可扩展的训练课程，大量保留并行化，只有小部分标记需要完全收敛。我们的方法在标准语言上展示了优越的态跟踪能力，超越了变压器和状态空间模型。进一步地，我们将隐式状态空间模型扩展到自然语言推理任务和大型语言模型的预训练，参数量达到13亿，标记量达到2070亿，据我们所知，这是迄今为止训练的最大隐式模型。值得注意的是，我们的隐式模型在标准基准测试上超过了其显式对应模型。