LLM2D

摘要

由于 Transformer 模型在序列长度方面存在可扩展性限制，人们重新对可并行训练的循环序列模型产生了兴趣。因此，许多新颖的循环架构，如 S4、Mamba 和 Aaren，被提出，并取得了可比较的性能。在这项工作中，我们重新审视了十多年前的传统循环神经网络 (RNN)：LSTM (1997) 和 GRU (2014)。虽然这些模型由于需要通过时间反向传播 (BPTT) 而速度很慢，但我们表明，通过从其输入、遗忘和更新门中去除其隐藏状态依赖关系，LSTM 和 GRU 不再需要 BPTT，并且可以高效地并行训练。在此基础上，我们引入了最小版本 (minLSTM 和 minGRU)，它们 (1) 比其传统对应物使用明显更少的参数，并且 (2) 在训练期间完全可并行 (对于长度为 512 的序列，速度快 175 倍)。最后，我们表明，这些简化的十年老 RNN 版本在经验上与最近的序列模型相匹配。