LLM2D
具有稳定状态反馈的递归神经网络快速训练
Fast Training of Recurrent Neural Networks with Stationary State Feedbacks
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.23104v1

摘要

arXiv:2503.23104v1 Announce Type: 横跨领域 摘要:循环神经网络(RNNs)最近在与Transformer相当的参数预算下展示了强大的性能和更快的推理速度。然而,沿时间反向传播(或BPTT)算法的递归梯度计算仍然是主要的计算瓶颈。在本文中,我们提出了一种新颖的方法,用固定梯度反馈机制替代BPTT,基于时间不变性的假设,提供了准确梯度传播的高效近似。我们的方法利用状态空间模型(SSM)原理定义了一个结构化的反馈矩阵,可以直接从未来时间步传播梯度。该公式规避了递归梯度反向传播的需求,显著降低了训练开销,同时保持了网络捕捉长期依赖性的能力。在语言建模基准上的实验展示了竞争力的困惑度分数,同时显著减少了训练成本。这些有希望的结果表明,设计类似SSM的反馈方法可以充分利用RNNs的效率优势,适用于许多实际应用。