LLM2D

摘要

arXiv:2503.14456v2 宣告类型: 替换交叉摘要：我们提出了一种新的序列建模架构 RWKV-7 "鹅"，具有恒定的内存使用量和每词恒定的推理时间。尽管与其他顶级模型相比，我们的 29 亿参数语言模型在训练时使用了显著较少的令牌数量，但其在多语言任务上的表现达到了 3B 最佳水平，并在英语下游任务上的表现与当前的 3B 最佳水平持平。RWKV-7 引入了一种新的泛化形式的 delta 规则，具有向量门控和上下文相关学习率，并且还引入了一种宽松的价值替换规则。我们展示了 RWKV-7 可以进行状态跟踪并识别所有正规语言，同时保持训练的并行化。这超出了标准复杂性猜想下变压器的能力，这些猜想将变压器的能力限制在 $\mathsf{TC}^0$。为了展示 RWKV-7 的语言建模能力，我们还提供了一个扩展的开源 3.1 万亿令牌多语言语料库，并在该语料库上训练了四个大小从 0.19 亿到 29 亿参数的 RWKV-7 模型。为了促进开放、复制和采用，我们发布了我们的模型和数据集组件列表，地址为 https://huggingface.co/RWKV，以及我们的训练和推理代码，地址为 https://github.com/RWKV/RWKV-LM，所有代码均采用 Apache 2.0 许可证。