LLM2D
前瞻调优:通过部分答案预览提升安全性的语言模型
LookAhead Tuning: Safer Language Models via Partial Answer Previews
作者: Kangwei Liu, Mengru Wang, Yujie Luo, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19041v1

摘要

arXiv:2503.19041v1 宣布类型: cross 摘要: 微调使大型语言模型(LLMs)能够适应特定领域,但往往会削弱它们之前确立的安全对齐。为了减轻模型安全在微调过程中下降的问题,我们引入了前瞻性微调(LookAhead Tuning),这是一种由简单、低资源和有效的数据驱动方法组成的方案,这些方法通过预览部分答案前缀来修改训练数据。这两种方法的目标是通过最小化对初始标记分布的影响来保留模型固有的安全机制。全面的实验表明,前瞻性微调能够在不牺牲下游任务的鲁棒性能的情况下有效地保持模型安全。我们的研究结果将前瞻性微调定位为一个可靠且高效的解决方案,用于安全有效地适应LLMs。代码发布在 https://github.com/zjunlp/LookAheadTuning。