LLM2D

摘要

arXiv:2505.09486v1 交叉类型：cross 摘要：深度神经网络中可塑性的丢失是一个模型在其容量逐渐减少以进行增量学习的过程，已被认为是非平稳问题设置中学习的关键障碍。最近的研究表明，深度线性网络倾向于对可塑性丢失具有抗性。受这一观察的启发，我们提出了自适应线性化（AdaLin），这是一种通用方法，可以动态地根据其梯度流自适应每个神经元的激活函数，以减轻可塑性丢失。不同于依赖于正则化或周期性重置的先前方法，AdaLin 为每个神经元配备了可学习参数和一个门控机制，该机制根据梯度流将线性注入激活函数中。这种自适应调节确保了足够的梯度信号，并在不需要引入额外的超参数或明确的任务边界的情况下维持持续学习。当与如ReLU、Tanh和GeLU等传统激活函数结合使用时，我们展示了AdaLin在标准基准上的性能显著提升，包括Random Label和Permuted MNIST、Random Label和Shuffled CIFAR-10以及Class-Split CIFAR-100。此外，其效果在更复杂的情境中得到了验证，如使用ResNet-18骨干网络在CIFAR-100上的类增量学习，以及在减轻随策略强化学习代理的可塑性损耗方面。我们进行了一套系统性的消融测试，证明了神经元级别自适应对于良好性能至关重要，并分析了网络中与可塑性丢失可能相关的多种指标。