LLM2D

摘要

arXiv:2410.07812v2 公告类型: replace-cross 摘要: 在现实世界的应用中，机器学习模型必须不断地学习新任务以适应数据生成分布的变化。然而，对于连续学习(Continual Learning, CL)，模型往往难以在学习新任务(塑性)与保留先前知识(记忆稳定性)之间取得平衡。因此，它们容易遭受灾难性遗忘(Catastrophic Forgetting)的影响，这会降低性能并削弱部署系统的可靠性。在贝叶斯连续学习的文献中，变分方法通过采用一个递归更新后验分布的学习目标来解决这一挑战，并对它进行约束，使其保持接近其先前的估计。然而，我们认为这些方法可能因递归更新过程中累积的近似误差而无效。为了缓解这一问题，我们提出了新的学习目标，这些目标结合了多个先前后验估计的正则化效应，防止个别错误在未来后验更新中占主导地位并随着时间累积。我们揭示了这些目标与时间差分方法之间的有趣联系，这是一种在强化学习和神经科学中流行的学习机制。在具有挑战性的连续学习基准测试中，我们的方法有效地缓解了灾难性遗忘，优于强大的变分连续学习方法。