LLM2D

摘要

神经网络训练可以通过使用可学习的更新规则来代替传统的自适应优化器（如 Adam）来加速。然而，可学习的更新规则的训练和使用可能成本高昂且不稳定。最近，Jang 等人（2023）提出了一种更简单的方法来加速基于权重预报网络 (WNN) 的训练。在他们的方法中，Adam 用于大多数优化步骤，并且周期性地，每隔几步，WNN 就会预测（预测近期）参数。我们通过提出神经元交互和预报 (NiNo) 网络来改进 WNN。与 WNN 相比，NiNo 利用神经元连接和图神经网络来更准确地预测参数。我们进一步表明，在某些网络中，例如 Transformer，准确地建模神经元连接具有挑战性。我们解决了这个问题和其他限制，这使得 NiNo 能够在视觉和语言任务中将 Adam 训练速度提高高达 50%。