LLM2D

摘要

arXiv:2408.10774v3 宣告类型: 替换摘要：大规模语言模型（LLMs）通过增加模型参数的数量，推动人工智能的发展，显著增强了泛化能力和在实际中的新能力。然而，它们在特定下游任务中的表现通常受到这些任务知识边界的影响而受限。因此，引入了微调技术，特别是广为使用的低秩适应（LoRA）方法，以扩大这些任务的知识边界，然而在某些任务上，LoRA 会由于在这些任务上的潜在过拟合而表现不佳。为了解决这一过拟合问题并提高 LoRA 的性能，我们提出了灵活低秩适应（Flexora）方法，以自动和灵活地选择需要微调的最重要层，以在不同的下游任务上实现最佳性能。具体而言，Flexora 首先将这一层选择问题重新定义为一个明确的超参数优化（HPO）问题，然后使用展开微分（UD）方法解决这一问题，并最终根据优化后的超参数选择最有用的层。我们在许多预训练模型和自然语言任务上进行的广泛实验表明，Flexora 能够一致地改进现有的基线方法，这表明在实践中我们的 Flexora 的有效性。此外，我们还提供了深刻的理论结果和许多消融研究，以对我们的 Flexora 提供全面的理解。