LLM2D

摘要

arXiv:2410.10868v3 公告类型: replace-cross 摘要：连续指令调优（CIT）被采用以逐步指导大型语言模型遵循人类意图数据。观察到现有的梯度更新会在CIT过程中严重破坏先前数据集的性能。相反，指数移动平均（EMA）具备追踪以前参数的能力，这有助于减少遗忘。然而，其稳定平衡权重无法应对不断变化的数据集，导致可塑性和稳定性之间的不平衡。在本文中，我们提出了一种通用的连续指令调优框架以应对这一挑战。从可取的权衡前提和EMA更新开始，我们提出了理想条件下的可塑性和稳定性。基于损失函数的泰勒展开，我们发现最优的平衡权重可以通过梯度和学习到的参数自动确定。因此，我们提出了一种稳定性和可塑性平衡系数以避免知识混淆。基于指令的语义相似性，我们可以确定是重新训练还是扩展训练参数，并为测试实例分配最合适的参数。在多个连续指令调优基准测试中的广泛实验表明，我们的方法不仅增强了抗遗忘能力，还显著提高了整体连续调优性能。例如，基于LLaVA-7B，遗忘率从5.42降低到1.93。我们的代码将在不久的将来公开。