摘要
arXiv:2502.07752v1 交叉类型:cross
摘要:为大型语言模型(LLMs)设计高效且内存要求低、快速收敛的优化器是一个重要且具有挑战性的问题。本文通过结构化鱼er赫芬蔓矩阵(FIM)近似的角度,朝着系统设计这类优化器迈出了一步。我们表明,许多先进的高效优化器可以被视为特定结构假设下FIM近似(在Frobenius范数下)的解决方案。基于这些见解,我们提出了两种适用于LLMs的高效优化器设计建议,涉及精心选择结构假设以平衡通用性和效率,并通过一种新颖的低秩扩展框架增强具有通用结构的优化器的内存效率。我们展示了如何使用每种设计方法来推导新的内存高效优化器:行和列比例化的随机梯度下降(RACS)和自适应低维子空间估计(Alice)。在对LLaMA预训练(多达1B参数)的实验中,验证了这些方法的有效性,显示出了比现有内存高效的基线和Adam更快且更好的收敛速度,且几乎没有内存开销。值得注意的是,Alice在内存开销方面优于Adam两倍的收敛速度,而RACS在1B模型上表现出与随机梯度下降(SGD)类似的内存效率,同时性能强劲。