LLM2D
Fira:在低秩约束下,我们能实现 LLMs 的全秩训练吗?
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint?
作者: Xi Chen, Kaituo Feng, Changsheng Li, Xunhao Lai, Xiangyu Yue, Ye Yuan, Guoren Wang
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01623v1

摘要

低秩训练已成为降低大型语言模型 (LLM) 训练内存使用率的一种很有前景的方法。以往的方法要么依赖于分解权重矩阵(例如 LoRA),要么寻求分解梯度矩阵(例如 GaLore)以确保降低内存消耗。然而,这两种方法都将训练限制在低秩子空间中,因此不可避免地导致次优性能。这就引发了一个问题:是否可以始终保持低秩约束以提高内存效率,同时实现全秩训练(即使用全秩权重的全秩梯度进行训练)以避免较差的结果?在本文中,我们提出了一种名为 Fira 的面向 LLM 的全新即插即用训练框架,作为实现这一目标的首次尝试。首先,我们观察到 LLM 训练期间一个有趣的现象:自适应优化器(例如 Adam)对梯度范数的缩放影响从低秩训练到全秩训练保持相似。基于这一观察,我们提出了一种基于范数的缩放方法,该方法利用低秩优化器的缩放影响作为原始全秩优化器的替代,以实现全秩训练。通过这种方式,我们可以保留优化器中的低秩约束,同时实现全秩训练以获得更好的性能。此外,我们发现优化过程中存在梯度突然上升的情况,这可能会导致损失激增。为了解决这个问题,我们进一步提出了一个范数增长限制器,通过调节梯度范数的相对增长来平滑梯度。在 LLM 预训练和微调方面的广泛实验表明,Fira 优于 LoRA 和 GaLore,实现了与全秩训练相当甚至更好的性能。