摘要
我们提出了 Eagle (RWKV-5) 和 Finch (RWKV-6),它们是基于 RWKV (RWKV-4) 架构的序列模型改进版本。我们的架构设计改进包括多头矩阵值状态和动态递归机制,这些机制在保持 RNN 的推理效率特性的同时提高了表达能力。我们引入了一个新的包含 1.12 万亿个词元的跨语言语料库和一个基于贪婪匹配的快速分词器,以增强跨语言能力。我们训练了四个 Eagle 模型,参数数量从 0.46 亿到 75 亿不等,以及两个 Finch 模型,参数数量分别为 16 亿和 31 亿,发现它们在各种基准测试中都取得了具有竞争力的性能。我们以 Apache 2.0 许可证在 HuggingFace 上发布了所有模型。模型地址:https://huggingface.co/RWKV 训练代码地址:https://github.com/RWKV/RWKV-LM 推理代码地址:https://github.com/RWKV/ChatRWKV 时间并行训练代码地址:https://github.com/RWKV/RWKV-infctx-trainer