LLM2D
利用神经元交互与即时预测网络加速训练
Accelerating Training with Neuron Interaction and Nowcasting Networks
作者: Boris Knyazev, Abhinav Moudgil, Guillaume Lajoie, Eugene Belilovsky, Simon Lacoste-Julien
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.04434v2

摘要

神经网络训练可以通过使用可学习的更新规则来代替传统的自适应优化器(如 Adam)来加速。然而,可学习的更新规则的训练和使用可能成本高昂且不稳定。最近,Jang 等人(2023)提出了一种更简单的方法来加速基于权重预报网络 (WNN) 的训练。在他们的方法中,Adam 用于大多数优化步骤,并且周期性地,每隔几步,WNN 就会预测(预测近期)参数。我们通过提出神经元交互和预报 (NiNo) 网络来改进 WNN。与 WNN 相比,NiNo 利用神经元连接和图神经网络来更准确地预测参数。我们进一步表明,在某些网络中,例如 Transformer,准确地建模神经元连接具有挑战性。我们解决了这个问题和其他限制,这使得 NiNo 能够在视觉和语言任务中将 Adam 训练速度提高高达 50%。