LLM2D
基于投影目标对角线中心线性变换的有效参数Mamba调优
Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation
作者: Seokil Ham, Hee-Seon Kim, Sangmin Woo, Changick Kim
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15224v1

摘要

尽管人们越来越关注 Mamba 架构作为 Transformer 架构的潜在替代方案,但 Mamba 架构的参数高效微调 (PEFT) 方法在很大程度上仍未得到探索。在我们的研究中,我们介绍了两种关键的洞察力驱动的 Mamba 架构 PEFT 策略:(1)虽然状态空间模型 (SSM) 被认为是 Mamba 架构的基石,并有望在迁移学习中发挥主要作用,但我们的研究结果表明,投影器——而不是 SSM——是迁移学习的主要贡献者;(2)基于我们观察到,通过近对角线线性变换可以有效地逼近将预训练投影器适应新任务,我们提出了一种专门针对 Mamba 架构的新的 PEFT 方法:目标投影器对角中心线性变换 (ProDiaL)。ProDiaL 侧重于仅优化对角中心线性变换矩阵,而不直接微调预训练投影器的权重。这种有针对性的方法可以实现高效的任务适应,使用的参数不到总参数的 1%,并且在视觉和语言 Mamba 模型上都表现出强大的性能,突出了其多功能性和有效性。