LLM2D

摘要

arXiv:2411.19557v2 宣告类型: replace-cross 摘要: 低秩适配器已成为高效微调大型语言模型（LLMs）的标准方法，但它们通常无法达到完全微调的性能。我们提出了一种方法，即 LoRA Silver Bullet 或 LoRA-SB，该方法通过精心设计的初始化策略在低秩子空间内近似完全微调。我们理论上证明，LoRA-XS 的架构，在 B 和 A 之间插入一个可学习的 (r x r) 矩阵，而在其他矩阵保持不变的情况下，提供了这种近似所需的精确条件。我们利用其受约束的更新空间实现高秩梯度更新的最佳缩放，同时消除了超参数调优的需求。我们证明，我们的初始化提供了初始梯度的最佳低秩近似，并在整个训练过程中保留了更新方向。广泛的实验表明，我们的方法在数学推理、常识推理和语言理解任务中的性能超过了标准的 LoRA，同时使用的学习参数减少了 27 至 90 倍，并全面超越了 LoRA-XS。我们的研究结果表明，在低秩子空间内模拟完全微调是可能的，并且可以在不牺牲性能的情况下获得显著的效率提升。我们的代码可在 https://github.com/RaghavSinghal10/lora-sb 公开获取。