LLM2D

摘要

arXiv:2504.16020v1 类型: cross 摘要: 我们介绍了一种名为AlphaGrad的内存高效且条件无状态优化器，它解决了自适应方法（如Adam）的内存开销和超参数复杂性问题。AlphaGrad 通过张量级L2梯度归一化后跟平滑双曲正切变换来强制实行比例不变性，变换公式为 $g' = \tanh(\alpha \cdot \tilde{g})$，该变换由单一的陡峭度参数 $\alpha$ 控制。我们的贡献包括：(1) AlphaGrad 算法的表述；(2) 形式非凸收敛分析，保证了稳态性；(3) 在多种RL基准测试（DQN、TD3、PPO）上的详尽实验评估。与Adam相比，AlphaGrad展示出高度依赖于上下文的性能特征。尽管在离策略DQN中表现出不稳定性，但在TD3中提供了增强的训练稳定性，并且在需要仔细调整 $\alpha$ 的情况下获得竞争性的结果。而在策略性PPO中，AlphaGrad实现了显著的性能提升。这些结果强调了$\alpha$ 选择的实验证据的重要性，揭示了优化器动力学与底层RL算法之间的强烈交互。AlphaGrad 提供了一种在内存受限场景下的有吸引力的替代优化器，并且在策略性学习领域显示出巨大的前景，其稳定性和效率优势可以产生特别的影响。