LLM2D

摘要

arXiv:2502.14458v1 Announce Type: cross 摘要：我们介绍了一种名为Llamba的高效递归语言模型家族，这些模型是从Llama-3.x通过Mamba架构进行提炼得到的。该系列包括Llamba-1B、Llamba-3B和Llamba-8B，这些模型在保持与基于Transformer模型相当的基准性能的同时，实现了更高的推理吞吐量，并能够处理比基于Transformer的模型大得多的批量大小。此外，Llamba展示了MOHAWK（Bick et al., 2024）跨架构提炼的有效性，在类似大小的模型中，它使用不到0.1%的训练数据就达到了这些结果。为了充分利用其效率，我们为诸如智能手机和边缘平台等资源受限的设备提供了Llamba的优化实现，提供了一个具有实践意义且内存高效的Transformer替代方案。总体来说，Llamba改善了速度、内存效率和性能之间的权衡，使高质量的语言模型更具 доступ性。