LLM2D

摘要

arXiv:2503.18565v1 交叉类型摘要：当前的自然语言处理（NLP）时代主要由Transformer模型支配。然而，基于递归机制的新型架构，如xLSTM和Mamba，已被提出作为基于注意力机制模型的替代方案。尽管这些递归模型的计算方式不同于基于注意力机制的方式，但它们取得了很好的效果，并且有时甚至超越了最先进的基于注意力机制的模型。在这项工作中，我们提出了Distil-xLSTM，这是一种基于xLSTM的小型语言模型（SLM），通过从大型语言模型（LLM）中蒸馏知识来训练，其在能够取得有希望的结果的同时，还具有计算和规模上的高效性。我们的Distil-xLSTM专注于使用其递归序列混合组件来近似基于Transformer模型的注意力参数化，并且通过最小的训练展示了良好的效果。