LLM2D

摘要

在本技术报告中，我们介绍了 Falcon Mamba 7B，一个基于新型 Mamba 架构的新型基础大型语言模型。Falcon Mamba 7B 在 5.8 万亿个经过精心挑选的数据混合体上进行训练。作为纯粹的基于 Mamba 的模型，Falcon Mamba 7B 超越了基于 Transformer 的领先开放权重模型，例如 Mistral 7B、Llama3.1 8B 和 Falcon2 11B。它与 Gemma 7B 相当，并且优于具有不同架构设计的模型，例如 RecurrentGemma 9B 和 RWKV-v6 Finch 7B/14B。根据 Open LLM 排行榜，目前，Falcon Mamba 7B 是文献中此规模表现最佳的 Mamba 模型，超越了现有的 Mamba 和混合 Mamba-Transformer 模型。由于其架构，Falcon Mamba 7B 在推理方面速度明显更快，并且在长序列生成方面所需的内存明显更少。尽管最近的研究表明混合 Mamba-Transformer 模型优于纯架构设计，但我们证明即使是纯 Mamba 设计也能实现与 Transformer 和混合设计类似甚至更好的结果。我们以许可证形式在 https://huggingface.co/tiiuae/falcon-mamba-7b 上公开发布了我们对 Falcon Mamba 7B 实现的权重。