LLM2D
Distil-xLSTM:通过递归结构学习注意力机制
Distil-xLSTM: Learning Attention Mechanisms through Recurrent Structures
作者: Abdoul Majid O. Thiombiano, Brahim Hnich, Ali Ben Mrad, Mohamed Wiem Mkaouer
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2503.18565v1

摘要

arXiv:2503.18565v1 交叉类型 摘要:当前的自然语言处理(NLP)时代主要由Transformer模型支配。然而,基于递归机制的新型架构,如xLSTM和Mamba,已被提出作为基于注意力机制模型的替代方案。尽管这些递归模型的计算方式不同于基于注意力机制的方式,但它们取得了很好的效果,并且有时甚至超越了最先进的基于注意力机制的模型。在这项工作中,我们提出了Distil-xLSTM,这是一种基于xLSTM的小型语言模型(SLM),通过从大型语言模型(LLM)中蒸馏知识来训练,其在能够取得有希望的结果的同时,还具有计算和规模上的高效性。我们的Distil-xLSTM专注于使用其递归序列混合组件来近似基于Transformer模型的注意力参数化,并且通过最小的训练展示了良好的效果。