摘要
arXiv:2411.15224v3 宣布类型: replace-cross
摘要:尽管Mamba架构作为Transformer架构潜在替代方案引起了越来越多的兴趣,但针对Mamba架构的参数高效微调(PEFT)方法仍鲜有探索。在我们的研究中,我们介绍了两种基于关键洞察的战略以改进Mamba架构中的PEFT:(1) 尽管状态空间模型(SSMs)一直是Mamba架构的核心基石,并预期在迁移学习中扮演主要角色,但我们的研究发现,投影器(Projectors)而非SSMs是迁移学习中主要的贡献者。(2) 基于我们的观察,我们提出了一种专门针对Mamba架构的新颖PEFT方法:投影器为中心的对角线导向线性变换(ProDiaL)。ProDiaL 方法专注于仅通过对角线导向的线性变换矩阵优化预训练的投影器,以便为新任务进行微调,而不直接微调投影器权重。这种专门化方法能够高效地适应任务,仅使用不到1%的总参数量,并在视觉和语言Mamba模型中均表现出色,突显了其多样性和有效性。