LLM2D
RWKV-7 “鹅”具有表现力的动力态状态演化
RWKV-7 "Goose" with Expressive Dynamic State Evolution
作者: Bo Peng, Ruichong Zhang, Daniel Goldstein, Eric Alcaide, Xingjian Du, Haowen Hou, Jiaju Lin, Jiaxing Liu, Janna Lu, William Merrill, Guangyu Song, Kaifeng Tan, Saiteja Utpala, Nathan Wilce, Johan S. Wind, Tianyi Wu, Daniel Wuttke, Christian Zhou-Zheng
发布日期: 4/1/2025
arXiv ID: oai:arXiv.org:2503.14456v2

摘要

arXiv:2503.14456v2 宣告类型: 替换交叉 摘要:我们提出了一种新的序列建模架构 RWKV-7 "鹅",具有恒定的内存使用量和每词恒定的推理时间。尽管与其他顶级模型相比,我们的 29 亿参数语言模型在训练时使用了显著较少的令牌数量,但其在多语言任务上的表现达到了 3B 最佳水平,并在英语下游任务上的表现与当前的 3B 最佳水平持平。RWKV-7 引入了一种新的泛化形式的 delta 规则,具有向量门控和上下文相关学习率,并且还引入了一种宽松的价值替换规则。我们展示了 RWKV-7 可以进行状态跟踪并识别所有正规语言,同时保持训练的并行化。这超出了标准复杂性猜想下变压器的能力,这些猜想将变压器的能力限制在 $\mathsf{TC}^0$。为了展示 RWKV-7 的语言建模能力,我们还提供了一个扩展的开源 3.1 万亿令牌多语言语料库,并在该语料库上训练了四个大小从 0.19 亿到 29 亿参数的 RWKV-7 模型。 为了促进开放、复制和采用,我们发布了我们的模型和数据集组件列表,地址为 https://huggingface.co/RWKV,以及我们的训练和推理代码,地址为 https://github.com/RWKV/RWKV-LM,所有代码均采用 Apache 2.0 许可证。