LLM2D

摘要

arXiv:2410.11687v2 宣布类型: replace-cross 摘要：深度状态空间模型（Deep SSMs）已成为有效建模序列数据的有效方法。它们也被证明能够进行上下文学习，类似于变压器。然而，有关状态空间模型如何能够进行上下文学习的完整图景一直缺失。在本研究中，我们提供了一种直接且明确的构造，以证明状态空间模型可以进行梯度学习，并且可以像变压器一样用于上下文学习。具体来说，我们证明了一个带有乘法输入和输出门控的单层结构化状态空间模型层，可以在一次梯度下降步骤后，再现最小二乘损失隐含线性模型的输出。然后，我们展示了对多步线性和非线性回归任务的简单扩展。我们通过在线性和非线性回归任务中对随机初始化的增强状态空间模型进行训练来验证我们的构造。通过优化获得的参数与理论构造中预测的参数相符。总体而言，我们阐明了输入门控和输出门控在递归架构中的作用，作为使能表现出众基础模型表达能力的关键归纳偏置。我们还提供了状态空间模型与线性自注意力关系的新见解，以及它们进行上下文学习的能力。