摘要
arXiv:2411.19557v2 宣告类型: replace-cross
摘要: 低秩适配器已成为高效微调大型语言模型(LLMs)的标准方法,但它们通常无法达到完全微调的性能。我们提出了一种方法,即 LoRA Silver Bullet 或 LoRA-SB,该方法通过精心设计的初始化策略在低秩子空间内近似完全微调。我们理论上证明,LoRA-XS 的架构,在 B 和 A 之间插入一个可学习的 (r x r) 矩阵,而在其他矩阵保持不变的情况下,提供了这种近似所需的精确条件。我们利用其受约束的更新空间实现高秩梯度更新的最佳缩放,同时消除了超参数调优的需求。我们证明,我们的初始化提供了初始梯度的最佳低秩近似,并在整个训练过程中保留了更新方向。广泛的实验表明,我们的方法在数学推理、常识推理和语言理解任务中的性能超过了标准的 LoRA,同时使用的学习参数减少了 27 至 90 倍,并全面超越了 LoRA-XS。我们的研究结果表明,在低秩子空间内模拟完全微调是可能的,并且可以在不牺牲性能的情况下获得显著的效率提升。我们的代码可在 https://github.com/RaghavSinghal10/lora-sb 公开获取。