摘要
arXiv:2503.19041v1 宣布类型: cross
摘要: 微调使大型语言模型(LLMs)能够适应特定领域,但往往会削弱它们之前确立的安全对齐。为了减轻模型安全在微调过程中下降的问题,我们引入了前瞻性微调(LookAhead Tuning),这是一种由简单、低资源和有效的数据驱动方法组成的方案,这些方法通过预览部分答案前缀来修改训练数据。这两种方法的目标是通过最小化对初始标记分布的影响来保留模型固有的安全机制。全面的实验表明,前瞻性微调能够在不牺牲下游任务的鲁棒性能的情况下有效地保持模型安全。我们的研究结果将前瞻性微调定位为一个可靠且高效的解决方案,用于安全有效地适应LLMs。代码发布在 https://github.com/zjunlp/LookAheadTuning。