LLM2D

摘要

arXiv:2503.23104v1 Announce Type: 横跨领域摘要：循环神经网络（RNNs）最近在与Transformer相当的参数预算下展示了强大的性能和更快的推理速度。然而，沿时间反向传播（或BPTT）算法的递归梯度计算仍然是主要的计算瓶颈。在本文中，我们提出了一种新颖的方法，用固定梯度反馈机制替代BPTT，基于时间不变性的假设，提供了准确梯度传播的高效近似。我们的方法利用状态空间模型（SSM）原理定义了一个结构化的反馈矩阵，可以直接从未来时间步传播梯度。该公式规避了递归梯度反向传播的需求，显著降低了训练开销，同时保持了网络捕捉长期依赖性的能力。在语言建模基准上的实验展示了竞争力的困惑度分数，同时显著减少了训练成本。这些有希望的结果表明，设计类似SSM的反馈方法可以充分利用RNNs的效率优势，适用于许多实际应用。