LLM2D

摘要

近年来，持续学习，一种预测环境可能随时间推移而演变的预测设置，已成为一个越来越受欢迎的研究领域，因为该框架旨在应对复杂的非平稳目标。学习此类目标需要可塑性，即神经网络能够根据不同的任务调整其预测的能力。最近的研究表明，在非平稳强化学习框架中，新任务上的可塑性损失与损失景观的锐度高度相关。我们探索了锐度正则化技术的应用，这些技术旨在寻找平滑的最小值，并因其在传统预测设置中的泛化能力而备受推崇，以努力对抗可塑性损失。我们的发现表明，此类技术对减少可塑性损失没有显着影响。