LLM2D
鹰与雀:基于矩阵值状态和动态递归的 RWKV 模型
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence
作者: Bo Peng, Daniel Goldstein, Quentin Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Xingjian Du, Teddy Ferdinan, Haowen Hou, Przemys{\l}aw Kazienko, Kranthi Kiran GV, Jan Koco\'n, Bart{\l}omiej Koptyra, Satyapriya Krishna, Ronald McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Stanis{\l}aw Wo\'zniak, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu
发布日期: 9/26/2024
arXiv ID: oai:arXiv.org:2404.05892v3

摘要

我们提出了 Eagle (RWKV-5) 和 Finch (RWKV-6),它们是基于 RWKV (RWKV-4) 架构的序列模型改进版本。我们的架构设计改进包括多头矩阵值状态和动态递归机制,这些机制在保持 RNN 的推理效率特性的同时提高了表达能力。我们引入了一个新的包含 1.12 万亿个词元的跨语言语料库和一个基于贪婪匹配的快速分词器,以增强跨语言能力。我们训练了四个 Eagle 模型,参数数量从 0.46 亿到 75 亿不等,以及两个 Finch 模型,参数数量分别为 16 亿和 31 亿,发现它们在各种基准测试中都取得了具有竞争力的性能。我们以 Apache 2.0 许可证在 HuggingFace 上发布了所有模型。模型地址:https://huggingface.co/RWKV 训练代码地址:https://github.com/RWKV/RWKV-LM 推理代码地址:https://github.com/RWKV/ChatRWKV 时间并行训练代码地址:https://github.com/RWKV/RWKV-infctx-trainer