摘要
arXiv:2503.18565v1 交叉类型
摘要:当前的自然语言处理(NLP)时代主要由Transformer模型支配。然而,基于递归机制的新型架构,如xLSTM和Mamba,已被提出作为基于注意力机制模型的替代方案。尽管这些递归模型的计算方式不同于基于注意力机制的方式,但它们取得了很好的效果,并且有时甚至超越了最先进的基于注意力机制的模型。在这项工作中,我们提出了Distil-xLSTM,这是一种基于xLSTM的小型语言模型(SLM),通过从大型语言模型(LLM)中蒸馏知识来训练,其在能够取得有希望的结果的同时,还具有计算和规模上的高效性。我们的Distil-xLSTM专注于使用其递归序列混合组件来近似基于Transformer模型的注意力参数化,并且通过最小的训练展示了良好的效果。