LLM2D
基于曲率的在线回放:利用二阶信息进行在线连续学习
Online Curvature-Aware Replay: Leveraging $\mathbf{2^{nd}}$ Order Information for Online Continual Learning
作者: Edoardo Urettini, Antonio Carta
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.01866v1

摘要

arXiv:2502.01866v1 通告类型: 综合交叉学科 摘要:在线连续学习(OCL)模型不断适应非平稳数据流,通常不包含任务信息。这些设置是复杂的,许多传统的连续学习(CL)方法在此类设置下失效,而在线方法(主要是基于回放的方法)在任务变更后会遇到不稳定性问题。为了解决这一问题,我们将基于回放的OCL形式化为具有显式KL散射约束的二阶在线联合优化。我们提出了在线曲率感知回放(OCAR),这是一种利用Fisher信息矩阵(FIM)的二阶损失信息近似(K-FAC)来预条件化梯度的方法。FIM充当稳定剂,防止遗忘,同时加快非干扰方向的优化。我们展示了如何将FIM的估计适应于连续设置,在非同分布数据下稳定二阶优化,并揭示了Tikhonov正则化在稳定性和可塑性权衡中的作用。实验证明,OCAR在连续学习指标中优于现有方法,在三个不同基准测试中,通过训练过程始终获得更高的平均准确性。