LLM2D

摘要

arXiv:2502.01014v1 交叉类型摘要：最近，零阶（ZO）优化在无法获取或负担不起梯度信息的情况下起到了重要作用，例如黑盒系统和资源受限环境。尽管现有的自适应方法，如ZO-AdaMM，已经显示出潜力，但它们在优化过程中对动量信息的利用不足，通常导致性能不佳的收敛。为克服这些限制，本文提出了改进自适应零阶优化（R-AdaZO）。具体而言，我们首先展示了第一动量估计在ZO梯度估计中的未充分利用的方差减少效果，这提高了ZO更新的准确性和稳定性。然后，我们基于这些方差减少的梯度估计改进了第二动量估计，以便更好地捕捉优化景观的几何结构，从而实现更有效的ZO更新尺度。我们进行了严格的理论分析，表明（I）ZO优化中第一动量估计方差减少的首份分析，（II）改进的第二动量估计，更准确地逼近其无方差的理想状态，（III）适应性ZO方法的第一个方差感知收敛框架，这可能具有独立兴趣，以及（IV）R-AdaZO比现有基准方法（如ZO-AdaMM）更快的收敛速度。我们的大量实验，包括合成问题、黑盒对抗攻击和大语言模型（LLMs）的内存高效微调，进一步验证了R-AdaZO的优越收敛性，表明R-AdaZO为实际世界中的ZO优化挑战提供了一个改进的解决方案。