LLM2D

摘要

arXiv:2502.01235v1 宣告类型: cross 摘要：本文研究了如何通过我们的理论分析来提高低秩适应（LoRA）的表现。我们的理论结果首先表明，在随机初始化和线性模型的情况下，\textit{i)} LoRA 将与全量微调的一步梯度的某些奇异子空间对齐；\textit{ii)} 前导器在高秩情况下可以提高收敛性。这些见解促使我们集中于使用特定光谱初始化策略的预条件 LoRA，以便与特定子空间对齐。对于线性和非线性模型，我们证明了在初始化时可以直接获得对齐和泛化保证，并且后续的线性收敛也可以建立。我们的分析导致了 \emph{LoRA-One} 算法（使用 \emph{One}-步梯度和预条件处理），这是一种理论上得到支持的算法，它在多个基准测试上比标准 LoRA 及其变体实现了显著的实证改进。基于解耦学习动态并描述光谱初始化如何促进特征学习的理论分析可能对理解矩阵感知和深度学习理论具有独立的研究兴趣。源代码可以在 https://github.com/YuanheZ/LoRA-One。