LLM2D
StochGradAdam:基于随机梯度采样的神经网络加速训练
StochGradAdam: Accelerating Neural Networks Training with Stochastic Gradient Sampling
作者: Juyoung Yun
发布日期: 10/23/2024
arXiv ID: oai:arXiv.org:2310.17042v3

摘要

本文介绍了一种名为StochGradAdam的新型优化器,它是Adam算法的扩展,结合了随机梯度采样技术,在保持鲁棒性能的同时提高了计算效率。StochGradAdam通过选择性地采样训练过程中的部分梯度进行优化,降低了计算成本,同时保留了Adam中自适应学习率和偏差校正的优点。我们在图像分类和分割任务上的实验结果表明,即使每次迭代使用较少的梯度更新,StochGradAdam也能达到与Adam相当甚至更好的性能。通过关注关键梯度更新,StochGradAdam提供了稳定的收敛性和增强的损失函数景观探索能力,同时减轻了噪声梯度的影响。结果表明,这种方法对于大型模型和数据集尤其有效,为深度学习应用中的传统优化技术提供了一种有前景的替代方案。