摘要
arXiv:2504.16020v1 类型: cross
摘要: 我们介绍了一种名为AlphaGrad的内存高效且条件无状态优化器,它解决了自适应方法(如Adam)的内存开销和超参数复杂性问题。AlphaGrad 通过张量级L2梯度归一化后跟平滑双曲正切变换来强制实行比例不变性,变换公式为 $g' = \tanh(\alpha \cdot \tilde{g})$,该变换由单一的陡峭度参数 $\alpha$ 控制。我们的贡献包括:(1) AlphaGrad 算法的表述;(2) 形式非凸收敛分析,保证了稳态性;(3) 在多种RL基准测试(DQN、TD3、PPO)上的详尽实验评估。与Adam相比,AlphaGrad展示出高度依赖于上下文的性能特征。尽管在离策略DQN中表现出不稳定性,但在TD3中提供了增强的训练稳定性,并且在需要仔细调整 $\alpha$ 的情况下获得竞争性的结果。而在策略性PPO中,AlphaGrad实现了显著的性能提升。这些结果强调了$\alpha$ 选择的实验证据的重要性,揭示了优化器动力学与底层RL算法之间的强烈交互。AlphaGrad 提供了一种在内存受限场景下的有吸引力的替代优化器,并且在策略性学习领域显示出巨大的前景,其稳定性和效率优势可以产生特别的影响。