LLM2D
面向大型语言模型的高效优化器设计通过低秩扩展的结构化鱼ería近似
Towards Efficient Optimizer Design for LLM via Structured Fisher Approximation with a Low-Rank Extension
作者: Wenbo Gong, Meyer Scetbon, Chao Ma, Edward Meeds
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.07752v2

摘要

arXiv:2502.07752v2 优化器类型:替换交叉 摘要:为大型语言模型(LLMs)设计高效且内存需求低、收敛速度快的优化器是一项重要且具有挑战性的问题。本文通过结构化的fisher信息矩阵(FIM)逼近的视角,对这种优化器的设计做出了系统性尝试。我们展示了,许多最先进的高效优化器可以被视为在特定结构假设下FIM逼近(基于Frobenius范数)的解决方案。基于这些见解,我们提出了两种实用高效的LLMs优化器设计建议,涉及谨慎选择结构假设来平衡通用性和效率,并通过一种新颖的低秩扩展框架增强优化器的整体内存效率。我们通过推导新的内存高效优化器—行列缩放SGD(RACS)和自适应低维子空间估计(Alice)来展示每种设计方法的应用。对LLaMA预训练(多达1B参数)进行的实验验证了这些方法的有效性,显示它们比现有内存高效的基线方法和Adam具有更快、更好的收敛速度,且内存开销较少。值得注意的是,Alice相比Adam实现了超过2倍的更快收敛速度,而RACS在1B模型上表现出类似SGD的内存效率,同时保持了强劲性能。