LLM2D
循环神经网络就足够了吗?
Were RNNs All We Needed?
作者: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01201v1

摘要

由于 Transformer 模型在序列长度方面存在可扩展性限制,人们重新对可并行训练的循环序列模型产生了兴趣。因此,许多新颖的循环架构,如 S4、Mamba 和 Aaren,被提出,并取得了可比较的性能。在这项工作中,我们重新审视了十多年前的传统循环神经网络 (RNN):LSTM (1997) 和 GRU (2014)。虽然这些模型由于需要通过时间反向传播 (BPTT) 而速度很慢,但我们表明,通过从其输入、遗忘和更新门中去除其隐藏状态依赖关系,LSTM 和 GRU 不再需要 BPTT,并且可以高效地并行训练。在此基础上,我们引入了最小版本 (minLSTM 和 minGRU),它们 (1) 比其传统对应物使用明显更少的参数,并且 (2) 在训练期间完全可并行 (对于长度为 512 的序列,速度快 175 倍)。最后,我们表明,这些简化的十年老 RNN 版本在经验上与最近的序列模型相匹配。