LLM2D

摘要

arXiv:2404.02948v4 宣布类型: 替换交叉摘要: 为了参数高效地微调（PEFT）大型语言模型（LLMs），洛拉（LoRA）方法通过两个矩阵 $A \in \mathbb{R}^{m \times r}$ 和 $B \in \mathbb{R}^{r \times n}$ 的乘积来近似模型变化 $\Delta W \in \mathbb{R}^{m \times n}$，其中 $r \ll \min(m, n)$，$A$ 用高斯噪声初始化，$B$ 用零初始化。LoRA 固定原始模型 $W$ 并更新“噪声与零”适配器，这可能会导致收敛速度慢。为了克服这一限制，我们引入了主奇异值和奇异向量适配（PiSSA）。PiSSA 与 LoRA 具有相同的架构，但使用原始矩阵 $W$ 的主成分初始化适配器矩阵 $A$ 和 $B$，并将剩余的成分放入一个残差矩阵 $W^{res} \in \mathbb{R}^{m \times n}$，在微调过程中冻结。与 LoRA 相比，PiSSA 更新主成分同时冻结“残差”部分，允许更快的收敛和增强的性能。对 12 个不同模型进行的比较实验包括 184M 到 70B 不同规模，涵盖 5 项自然语言生成（NLG）和 8 项自然语言理解（NLU）任务，结果显示 PiSSA 在相同的实验设置下始终优于 LoRA。在 GSM8K 基准测试中，使用 PiSSA 微调的 Mistral-7B 的准确率为 72.86%，高于 LoRA 的 67.7% 5.16%。由于具有相同的架构，PiSSA 也可以与量化兼容，进一步减少微调所需的内存需求。与 QLoRA 相比，QPiSSA 在初始阶段表现出更小的量化误差。对 GSM8K 的 LLaMA-3-70B 微调，QPiSSA 达到了 86.05% 的准确率，超过了 QLoRA 的 81.73%。利用快速 SVD 技术，PiSSA 只需几秒钟即可初始化，从 LoRA 到 PiSSA 的过渡成本可忽略不计。代码可在 https://github.com/GraphPKU/PiSSA 获取。