LLM2D

摘要

随着大型语言模型 (LLM) 的规模不断增长，其计算和内存需求也相应增加。因此，探索经济高效且有效的微调方法变得越来越重要。低秩自适应 (LoRA) 通过冻结原始权重并仅训练低秩矩阵，取得了显著的训练结果，成为 LLM 微调的主要方法。为了追求更接近全参数训练的性能，一系列 LoRA 变体应运而生，例如 LoRA+、PISSA、Olora 和 LoRA-GA。然而，这些方法也使微调初始化过程更加复杂，并且要超越全微调的性能上限仍然具有挑战性。为了解决这些问题，本文提出了一种名为 Bone（块仿射）的创新方法，该方法不仅减少了内存开销，而且还强调了权重之间的内部连接，从而导致更快的收敛和更好的数据拟合。在两种不同的 LLM 架构（LLaMA2、RWKV6）和各种参数尺度上的实验比较表明，Bone 结构可以实现快速收敛和优越的数据拟合，而无需复杂的初始化。例如，在 MetaMathQA 数据集上微调 LLaMA2-7B，并在 GSM8k 和数学基准上进行验证时，Bone 的微调分数分别为 49.36 和 8.8，分别比 PISSA 高出 5.84% 和 1.96%。