LLM2D

摘要

arXiv:2411.03855v3 发布类型: replace-cross 摘要：通过使用大量数据构建大型模型，已经建立了一个基于 Transformer 的模型生态系统。参数高效微调（PEFT）是一种关键技术，可以在最小的成本下将这些模型部署到下游任务，同时实现有效的性能。最近，基于状态空间模型（SSM）的 Mamba 模型因其在 Transformer 的潜在替代方案中引起了关注。尽管已经提出了许多基于 Mamba 的大型模型，但如何高效地将预训练的 Mamba 模型适应到下游任务仍是一个未探索的领域。在本文中，我们对 Mamba 的 PEFT 方法进行了探索性分析。我们探讨了现有的 Transformer 的 PEFT 方法在应用于 Mamba 时的有效性。我们还对这些方法进行修改，以便更好地与 Mamba 架构对齐。此外，我们提出了新的基于 Mamba 的 PEFT 方法，利用了 Mamba 的独特结构。我们的实验表明，与 Transformer 相比，PEFT 在 Mamba 上表现得更有效。最后，我们展示了如何有效地结合多种 PEFT 方法，并提供了一种超越现有工作的框架。为了确保可再现性，我们将在发表后发布代码。