摘要
本技术报告介绍了Zamba2系列模型——一套参数量分别为12亿、27亿和74亿的混合Mamba2-Transformer模型。该系列模型在同级别领先的开放权重模型中取得了最先进的性能,同时在推理延迟、吞吐量和内存效率方面取得了显著提升。Zamba2系列基于我们最初的Zamba1-7B模型的工作,对其架构、训练和退火数据集以及训练过程(最多达3万亿个token)进行了优化。我们为Zamba2系列的所有模型以及具有强大竞争力的指令微调变体提供了开源权重。此外,我们还开源了用于训练Zamba2系列模型的预训练数据集Zyda-2。本工作中使用的模型和数据集可在https://huggingface.co/Zyphra公开获取。