LLM2D
通过投影目标对角中心线性变换的参数高效豹子调谐
Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation
作者: Seokil Ham, Hee-Seon Kim, Sangmin Woo, Changick Kim
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2411.15224v3

摘要

arXiv:2411.15224v3 宣布类型: replace-cross 摘要:尽管Mamba架构作为Transformer架构潜在替代方案引起了越来越多的兴趣,但针对Mamba架构的参数高效微调(PEFT)方法仍鲜有探索。在我们的研究中,我们介绍了两种基于关键洞察的战略以改进Mamba架构中的PEFT:(1) 尽管状态空间模型(SSMs)一直是Mamba架构的核心基石,并预期在迁移学习中扮演主要角色,但我们的研究发现,投影器(Projectors)而非SSMs是迁移学习中主要的贡献者。(2) 基于我们的观察,我们提出了一种专门针对Mamba架构的新颖PEFT方法:投影器为中心的对角线导向线性变换(ProDiaL)。ProDiaL 方法专注于仅通过对角线导向的线性变换矩阵优化预训练的投影器,以便为新任务进行微调,而不直接微调投影器权重。这种专门化方法能够高效地适应任务,仅使用不到1%的总参数量,并在视觉和语言Mamba模型中均表现出色,突显了其多样性和有效性。