LLM2D

摘要

低秩训练已成为降低大型语言模型 (LLM) 训练内存使用率的一种很有前景的方法。以往的方法要么依赖于分解权重矩阵（例如 LoRA），要么寻求分解梯度矩阵（例如 GaLore）以确保降低内存消耗。然而，这两种方法都将训练限制在低秩子空间中，因此不可避免地导致次优性能。这就引发了一个问题：是否可以始终保持低秩约束以提高内存效率，同时实现全秩训练（即使用全秩权重的全秩梯度进行训练）以避免较差的结果？在本文中，我们提出了一种名为 Fira 的面向 LLM 的全新即插即用训练框架，作为实现这一目标的首次尝试。首先，我们观察到 LLM 训练期间一个有趣的现象：自适应优化器（例如 Adam）对梯度范数的缩放影响从低秩训练到全秩训练保持相似。基于这一观察，我们提出了一种基于范数的缩放方法，该方法利用低秩优化器的缩放影响作为原始全秩优化器的替代，以实现全秩训练。通过这种方式，我们可以保留优化器中的低秩约束，同时实现全秩训练以获得更好的性能。此外，我们发现优化过程中存在梯度突然上升的情况，这可能会导致损失激增。为了解决这个问题，我们进一步提出了一个范数增长限制器，通过调节梯度范数的相对增长来平滑梯度。在 LLM 预训练和微调方面的广泛实验表明，Fira 优于 LoRA 和 GaLore，实现了与全秩训练相当甚至更好的性能。