LLM2D
骨骼:大型语言模型的块仿射自适应
Bone: Block-Affine Adaptation of Large Language Models
作者: Jiale Kang
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2409.15371v4

摘要

低秩适应(LoRA)通过冻结原始权重并仅训练低秩矩阵,取得了显著的训练成果,已成为大型语言模型 (LLM) 最主要的微调方法。为了追求更接近全参数训练的性能,一系列 LoRA 变体应运而生,例如 LoRA+、PISSA、Olora 和 LoRA-GA。本文介绍了一种与 LoRA 不同的新型高效参数模型微调 (PEFT) 技术,称为块仿射适应 (Bone)。通过将原始权重划分为多个共享单个权重更新矩阵的子空间,Bone 简化了训练过程,只需将可训练矩阵初始化为零,避免了像某些 LoRA 变体那样需要复杂的初始化。与 LoRA 相比,Bone 显著降低了内存使用率并实现了更快的计算速度。对 NLU 和 NLG 任务的评估表明,Bone 显著优于 LoRA 及其变体。受 Pissa 的启发,我们进一步提出了“权重引导”理论,以更好地利用原始权重信息。通过将“权重引导”与 Bone 集成,我们开发了一种新的结构,称为块仿射变换 (Bat),消融实验也证实了“权重引导”的有效性。