摘要
arXiv:2502.14458v1 Announce Type: cross
摘要:我们介绍了一种名为Llamba的高效递归语言模型家族,这些模型是从Llama-3.x通过Mamba架构进行提炼得到的。该系列包括Llamba-1B、Llamba-3B和Llamba-8B,这些模型在保持与基于Transformer模型相当的基准性能的同时,实现了更高的推理吞吐量,并能够处理比基于Transformer的模型大得多的批量大小。此外,Llamba展示了MOHAWK(Bick et al., 2024)跨架构提炼的有效性,在类似大小的模型中,它使用不到0.1%的训练数据就达到了这些结果。为了充分利用其效率,我们为诸如智能手机和边缘平台等资源受限的设备提供了Llamba的优化实现,提供了一个具有实践意义且内存高效的Transformer替代方案。总体来说,Llamba改善了速度、内存效率和性能之间的权衡,使高质量的语言模型更具 доступ性。