摘要
arXiv:2503.14456v2 宣告类型: 替换交叉
摘要:我们提出了一种新的序列建模架构 RWKV-7 "鹅",具有恒定的内存使用量和每词恒定的推理时间。尽管与其他顶级模型相比,我们的 29 亿参数语言模型在训练时使用了显著较少的令牌数量,但其在多语言任务上的表现达到了 3B 最佳水平,并在英语下游任务上的表现与当前的 3B 最佳水平持平。RWKV-7 引入了一种新的泛化形式的 delta 规则,具有向量门控和上下文相关学习率,并且还引入了一种宽松的价值替换规则。我们展示了 RWKV-7 可以进行状态跟踪并识别所有正规语言,同时保持训练的并行化。这超出了标准复杂性猜想下变压器的能力,这些猜想将变压器的能力限制在 $\mathsf{TC}^0$。为了展示 RWKV-7 的语言建模能力,我们还提供了一个扩展的开源 3.1 万亿令牌多语言语料库,并在该语料库上训练了四个大小从 0.19 亿到 29 亿参数的 RWKV-7 模型。
为了促进开放、复制和采用,我们发布了我们的模型和数据集组件列表,地址为 https://huggingface.co/RWKV,以及我们的训练和推理代码,地址为 https://github.com/RWKV/RWKV-LM,所有代码均采用 Apache 2.0 许可证。