LLM2D

摘要

arXiv:2410.10868v2 宣告类型: replace-cross 摘要：连续指令调优（CIT）被采用来连续地通过逐个数据点指导大型模型遵循人类意图数据。观察到现有梯度更新在CIT过程中会严重破坏先前数据集的表现。相反，指数移动平均（EMA）具有追踪之前参数的能力，这可以辅助减少遗忘。然而，稳定的平衡权重难以应对不断变化的数据集，导致可塑性和稳定性之间的失衡。在本文中，我们提出了一种通用的连续指令调优框架以应对这一挑战。从梯度更新的前提条件和EMA更新出发，我们提出了可塑性和稳定性的理想条件。基于损失函数的泰勒展开，我们发现最优平衡权重可以通过梯度和学习参数自动生成。因此，我们提出一个稳定-可塑性平衡系数以避免知识混淆。基于指令的语义相似性，我们可以确定是重新训练还是扩展训练参数，并为测试实例分配最合适的参数。在多个连续指令调优基准上的广泛实验表明，我们的方法不仅增强了抗遗忘能力，还显著提高了整体连续调优性能。例如，基于LLaVA-7B，遗忘率从5.42降低到1.93。我们的代码将很快公开。