摘要
arXiv:2502.11555v1 宣言类型: 新
摘要:基于人类偏好的微调大型语言模型(LLMs),通常通过人类反馈强化学习(RLHF)实现,已被证明可以有效地提高其性能。然而,在整个微调过程中保持LLM的安全性仍然是一个重要挑战,因为平衡安全性和有用性之间的冲突往往复杂得多。通常情况下,LLM的安全对齐是在包含安全相关类别的数据上进行训练。然而,我们的实验发现,简单地增加安全训练数据的规模往往会导致LLM进入“过于安全”的状态,而不是“真正安全”的状态,通过大量的安全对齐数据来提升拒绝率,而在真正理解安全响应所需的前提条件方面却没有实质性的进步。这种做法可能会无意中降低模型的有用性。为了理解这一现象,我们首先通过将安全数据分类为三个不同的组来研究其作用,并观察随着训练数据规模的扩大,每个组表现出不同的行为。为了在安全性和有用性之间取得更好的平衡,我们提出了一个均衡的RLHF框架,包括一种细粒度数据为中心(FDC)的方法,在较少的训练数据下也能实现更好的安全对齐,以及一种适应性消息级对齐(AMA)方法,该方法通过梯度遮蔽策略选择性地突出关键段落。大量实验结果表明,我们的方法在提升LLM的安全对齐的同时,能够更好地平衡安全性和有用性。