LLM2D
PiSSA: 主奇异值和奇异向量适应的大语言模型
PiSSA: Principal Singular Values and Singular Vectors Adaptation of Large Language Models
作者: Fanxu Meng, Zhaohui Wang, Muhan Zhang
发布日期: 4/10/2025
arXiv ID: oai:arXiv.org:2404.02948v4

摘要

arXiv:2404.02948v4 宣布类型: 替换交叉 摘要: 为了参数高效地微调(PEFT)大型语言模型(LLMs),洛拉(LoRA)方法通过两个矩阵 $A \in \mathbb{R}^{m \times r}$ 和 $B \in \mathbb{R}^{r \times n}$ 的乘积来近似模型变化 $\Delta W \in \mathbb{R}^{m \times n}$,其中 $r \ll \min(m, n)$,$A$ 用高斯噪声初始化,$B$ 用零初始化。LoRA 固定原始模型 $W$ 并更新“噪声与零”适配器,这可能会导致收敛速度慢。为了克服这一限制,我们引入了主奇异值和奇异向量适配(PiSSA)。PiSSA 与 LoRA 具有相同的架构,但使用原始矩阵 $W$ 的主成分初始化适配器矩阵 $A$ 和 $B$,并将剩余的成分放入一个残差矩阵 $W^{res} \in \mathbb{R}^{m \times n}$,在微调过程中冻结。与 LoRA 相比,PiSSA 更新主成分同时冻结“残差”部分,允许更快的收敛和增强的性能。对 12 个不同模型进行的比较实验包括 184M 到 70B 不同规模,涵盖 5 项自然语言生成(NLG)和 8 项自然语言理解(NLU)任务,结果显示 PiSSA 在相同的实验设置下始终优于 LoRA。在 GSM8K 基准测试中,使用 PiSSA 微调的 Mistral-7B 的准确率为 72.86%,高于 LoRA 的 67.7% 5.16%。由于具有相同的架构,PiSSA 也可以与量化兼容,进一步减少微调所需的内存需求。与 QLoRA 相比,QPiSSA 在初始阶段表现出更小的量化误差。对 GSM8K 的 LLaMA-3-70B 微调,QPiSSA 达到了 86.05% 的准确率,超过了 QLoRA 的 81.73%。利用快速 SVD 技术,PiSSA 只需几秒钟即可初始化,从 LoRA 到 PiSSA 的过渡成本可忽略不计。代码可在 https://github.com/GraphPKU/PiSSA 获取。