LLM2D

摘要

在大型语言模型的训练中，像 LoRA 这样的参数高效技术优化了内存使用，并在微调阶段减少了通信开销。然而，在预训练阶段直接应用这些技术会导致性能下降，主要是因为过早实施低秩训练会显著降低模型精度。现有的方法如 ReLoRA 和 GaLore 试图通过更新低秩子空间来解决这一挑战。然而，它们仍然无法达到全秩训练的精度，因为它们必须限制更新频率以保持优化器状态一致性，这阻碍了它们紧密逼近全秩训练行为的能力。本文介绍了 SwitchLoRA，一种参数高效的训练技术，它频繁且平滑地用替代参数替换 LoRA 适配器的可训练参数。SwitchLoRA 增量式地更新低秩子空间，一次只针对少数维度，以最大程度地减少对优化器状态的影响。这允许更高的更新频率，从而通过使更新后的参数能够在预训练阶段更紧密地模拟全秩行为来提高精度。我们的结果表明，SwitchLoRA 实际上超越了全秩训练，在 LLaMA 1.3B 模型上将困惑度从 15.23 降低到 15.01，同时在 LLaMA 1.3B 模型上将通信开销降低了 54%。此外，在 GLUE 基准上对 SwitchLoRA 预训练模型和全秩预训练模型进行完全微调后，SwitchLoRA 预训练模型在全秩预训练模型的基础上平均精度提高了约 1%。这表明 SwitchLoRA 具有增强的泛化和推理能力。