LLM2D

摘要

arXiv:2502.07752v2 优化器类型：替换交叉摘要：为大型语言模型（LLMs）设计高效且内存需求低、收敛速度快的优化器是一项重要且具有挑战性的问题。本文通过结构化的fisher信息矩阵（FIM）逼近的视角，对这种优化器的设计做出了系统性尝试。我们展示了，许多最先进的高效优化器可以被视为在特定结构假设下FIM逼近（基于Frobenius范数）的解决方案。基于这些见解，我们提出了两种实用高效的LLMs优化器设计建议，涉及谨慎选择结构假设来平衡通用性和效率，并通过一种新颖的低秩扩展框架增强优化器的整体内存效率。我们通过推导新的内存高效优化器—行列缩放SGD（RACS）和自适应低维子空间估计（Alice）来展示每种设计方法的应用。对LLaMA预训练（多达1B参数）进行的实验验证了这些方法的有效性，显示它们比现有内存高效的基线方法和Adam具有更快、更好的收敛速度，且内存开销较少。值得注意的是，Alice相比Adam实现了超过2倍的更快收敛速度，而RACS在1B模型上表现出类似SGD的内存效率，同时保持了强劲性能。