摘要
我们提出了 Eagle (RWKV-5) 和 Finch (RWKV-6),它们是基于 RWKV (RWKV-4) 架构的序列模型改进版本。我们的架构设计改进包括多头矩阵值状态和动态递归机制,这些机制提高了表达能力,同时保留了 RNN 的推理效率特性。我们引入了一个新的包含 1.12 万亿个词元的跨语言语料库和一个基于贪婪匹配的快速分词器,以增强多语言能力。我们训练了四个 Eagle 模型,参数范围从 0.46 亿到 75 亿,以及两个 Finch 模型,参数分别为 16 亿和 31 亿,发现它们在各种基准测试中取得了具有竞争力的性能。我们以 Apache 2.0 许可证在 HuggingFace 上发布了所有模型。模型地址:https://huggingface.co/RWKV 训练代码地址:https://github.com/RWKV/RWKV-LM 推理代码地址:https://github.com/RWKV/ChatRWKV 并行训练代码地址:https://github.com/RWKV/RWKV-infctx-trainer