LLM2D

摘要

本文介绍了一种名为StochGradAdam的新型优化器，它是Adam算法的扩展，结合了随机梯度采样技术，在保持鲁棒性能的同时提高了计算效率。StochGradAdam通过选择性地采样训练过程中的部分梯度进行优化，降低了计算成本，同时保留了Adam中自适应学习率和偏差校正的优点。我们在图像分类和分割任务上的实验结果表明，即使每次迭代使用较少的梯度更新，StochGradAdam也能达到与Adam相当甚至更好的性能。通过关注关键梯度更新，StochGradAdam提供了稳定的收敛性和增强的损失函数景观探索能力，同时减轻了噪声梯度的影响。结果表明，这种方法对于大型模型和数据集尤其有效，为深度学习应用中的传统优化技术提供了一种有前景的替代方案。