LLM2D

摘要

arXiv:2502.01866v1 宣告类型: 横向摘要: 在线持续学习(OCL)模型不断适应非稳态数据流，通常不包含任务信息。这些设置相当复杂，许多传统的持续学习(CL)方法都失败了，而在线方法（主要依赖重放）在任务迁移后会出现不稳定性。为了解决这一问题，我们将基于重放的OCL形式化为一个带有明确的重放数据KL散度约束的第二级在线联合优化。我们提出了在线曲率感知重放(OCAR)，一种利用损失函数第二级信息（使用FIM的K-FAC近似）预处理梯度的方法，FIM起到稳定器的作用，防止遗忘，并且在不干扰的方向上加速优化。我们展示了如何根据连续设置调整FIM的估计，以稳定非独立非同分布数据下的第二级优化，揭示了Tikhonov正则化在稳定性和适应性权衡中的作用。实验证明，在不同的基准测试中，OCAR在持续学习指标上优于现有最佳方法，在训练过程中实现了更高的平均准确率。