LLM2D

摘要

arXiv:2502.01866v1 通告类型: 综合交叉学科摘要：在线连续学习（OCL）模型不断适应非平稳数据流，通常不包含任务信息。这些设置是复杂的，许多传统的连续学习（CL）方法在此类设置下失效，而在线方法（主要是基于回放的方法）在任务变更后会遇到不稳定性问题。为了解决这一问题，我们将基于回放的OCL形式化为具有显式KL散射约束的二阶在线联合优化。我们提出了在线曲率感知回放（OCAR），这是一种利用Fisher信息矩阵（FIM）的二阶损失信息近似（K-FAC）来预条件化梯度的方法。FIM充当稳定剂，防止遗忘，同时加快非干扰方向的优化。我们展示了如何将FIM的估计适应于连续设置，在非同分布数据下稳定二阶优化，并揭示了Tikhonov正则化在稳定性和可塑性权衡中的作用。实验证明，OCAR在连续学习指标中优于现有方法，在三个不同基准测试中，通过训练过程始终获得更高的平均准确性。