LLM2D
深度学习中自适应梯度缩放的二阶类优化器
A second-order-like optimizer with adaptive gradient scaling for deep learning
作者: J\'er\^ome Bolte (TSE-R), Ryan Boustany (TSE-R), Edouard Pauwels (TSE-R, IRIT-ADRIA), Andrei Purica
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05871v1

摘要

本文介绍了一种名为 INNAprop 的优化算法,它结合了 INNA 方法和 RMSprop 自适应梯度缩放。该算法利用二阶信息和重新缩放,同时保持了 AdamW 或带动量的 SGD 等标准深度学习方法的内存需求。在回顾了我们的几何动机后,我们进行了相当广泛的实验。在图像分类(CIFAR-10、ImageNet)和语言建模(GPT-2)方面,INNAprop 在训练速度和准确性方面始终与 AdamW 相匹配或优于 AdamW,并且在大规模设置中只需要进行最少的超参数调整。我们的代码已在 \url{https://github.com/innaprop/innaprop} 公开发布。