摘要
随着大型语言模型 (LLM) 的规模不断增长,其计算和内存需求也相应增加。因此,探索经济高效且有效的微调方法变得越来越重要。低秩自适应 (LoRA) 通过冻结原始权重并仅训练低秩矩阵,取得了显著的训练结果,成为 LLM 微调的主要方法。为了追求更接近全参数训练的性能,一系列 LoRA 变体应运而生,例如 LoRA+、PISSA、Olora 和 LoRA-GA。然而,这些方法也使微调初始化过程更加复杂,并且要超越全微调的性能上限仍然具有挑战性。为了解决这些问题,本文提出了一种名为 Bone(块仿射)的创新方法,该方法不仅减少了内存开销,而且还强调了权重之间的内部连接,从而导致更快的收敛和更好的数据拟合。在两种不同的 LLM 架构(LLaMA2、RWKV6)和各种参数尺度上的实验比较表明,Bone 结构可以实现快速收敛和优越的数据拟合,而无需复杂的初始化。例如,在 MetaMathQA 数据集上微调 LLaMA2-7B,并在 GSM8k 和数学基准上进行验证时,Bone 的微调分数分别为 49.36 和 8.8,分别比 PISSA 高出 5.84% 和 1.96%。