摘要
arXiv:2410.10868v2 宣告类型: replace-cross
摘要:连续指令调优(CIT)被采用来连续地通过逐个数据点指导大型模型遵循人类意图数据。观察到现有梯度更新在CIT过程中会严重破坏先前数据集的表现。相反,指数移动平均(EMA)具有追踪之前参数的能力,这可以辅助减少遗忘。然而,稳定的平衡权重难以应对不断变化的数据集,导致可塑性和稳定性之间的失衡。在本文中,我们提出了一种通用的连续指令调优框架以应对这一挑战。从梯度更新的前提条件和EMA更新出发,我们提出了可塑性和稳定性的理想条件。基于损失函数的泰勒展开,我们发现最优平衡权重可以通过梯度和学习参数自动生成。因此,我们提出一个稳定-可塑性平衡系数以避免知识混淆。基于指令的语义相似性,我们可以确定是重新训练还是扩展训练参数,并为测试实例分配最合适的参数。在多个连续指令调优基准上的广泛实验表明,我们的方法不仅增强了抗遗忘能力,还显著提高了整体连续调优性能。例如,基于LLaVA-7B,遗忘率从5.42降低到1.93。我们的代码将很快公开。