LLM2D

摘要

本文介绍了一种名为 INNAprop 的优化算法，它结合了 INNA 方法和 RMSprop 自适应梯度缩放。该算法利用二阶信息和重新缩放，同时保持了 AdamW 或带动量的 SGD 等标准深度学习方法的内存需求。在回顾了我们的几何动机后，我们进行了相当广泛的实验。在图像分类（CIFAR-10、ImageNet）和语言建模（GPT-2）方面，INNAprop 在训练速度和准确性方面始终与 AdamW 相匹配或优于 AdamW，并且在大规模设置中只需要进行最少的超参数调整。我们的代码已在 \url{https://github.com/innaprop/innaprop} 公开发布。