LLM2D
MambaPEFT:探索Mamba的参数高效微调
MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba
作者: Masakazu Yoshimura, Teruaki Hayashi, Yota Maeda
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2411.03855v3

摘要

arXiv:2411.03855v3 发布类型: replace-cross 摘要:通过使用大量数据构建大型模型,已经建立了一个基于 Transformer 的模型生态系统。 参数高效微调(PEFT)是一种关键技术,可以在最小的成本下将这些模型部署到下游任务,同时实现有效的性能。最近,基于状态空间模型(SSM)的 Mamba 模型因其在 Transformer 的潜在替代方案中引起了关注。尽管已经提出了许多基于 Mamba 的大型模型,但如何高效地将预训练的 Mamba 模型适应到下游任务仍是一个未探索的领域。在本文中,我们对 Mamba 的 PEFT 方法进行了探索性分析。我们探讨了现有的 Transformer 的 PEFT 方法在应用于 Mamba 时的有效性。我们还对这些方法进行修改,以便更好地与 Mamba 架构对齐。此外,我们提出了新的基于 Mamba 的 PEFT 方法,利用了 Mamba 的独特结构。我们的实验表明,与 Transformer 相比,PEFT 在 Mamba 上表现得更有效。最后,我们展示了如何有效地结合多种 PEFT 方法,并提供了一种超越现有工作的框架。为了确保可再现性,我们将在发表后发布代码。