LLM2D

摘要

arXiv:2410.07547v2 更新类型: replace-cross 摘要：脉冲神经网络（SNNs）被认为由于其仿脑性和能效性，在未来的人工智能发展中具有巨大的潜力。与传统的时空反向传播（STBP）训练方法相比，在线训练可以有效克服GPU内存爆炸的风险。然而，当前的在线学习框架无法解决时间依赖梯度的不可分问题，并仅仅旨在优化训练内存，导致在推理阶段性能不及STBP训练模型。为了解决上述挑战，我们提出了混合机制驱动放电（HM-DF）模型，这是一个采用不同脉冲计算方案的高级模型；在放电阈值的上下区域分别采用了不同的放电策略。我们指出，HM-DF模型可以有效分离时间梯度、解决近似梯度的不匹配问题，并在计算速度和内存占用方面实现全过程优化。实验结果表明，HM-DF模型可以灵活结合各种技术，在在线学习领域实现尖端性能，而不引发进一步的能耗。