LLM2D

摘要

arXiv:2502.11555v1 宣言类型: 新摘要：基于人类偏好的微调大型语言模型（LLMs），通常通过人类反馈强化学习（RLHF）实现，已被证明可以有效地提高其性能。然而，在整个微调过程中保持LLM的安全性仍然是一个重要挑战，因为平衡安全性和有用性之间的冲突往往复杂得多。通常情况下，LLM的安全对齐是在包含安全相关类别的数据上进行训练。然而，我们的实验发现，简单地增加安全训练数据的规模往往会导致LLM进入“过于安全”的状态，而不是“真正安全”的状态，通过大量的安全对齐数据来提升拒绝率，而在真正理解安全响应所需的前提条件方面却没有实质性的进步。这种做法可能会无意中降低模型的有用性。为了理解这一现象，我们首先通过将安全数据分类为三个不同的组来研究其作用，并观察随着训练数据规模的扩大，每个组表现出不同的行为。为了在安全性和有用性之间取得更好的平衡，我们提出了一个均衡的RLHF框架，包括一种细粒度数据为中心（FDC）的方法，在较少的训练数据下也能实现更好的安全对齐，以及一种适应性消息级对齐（AMA）方法，该方法通过梯度遮蔽策略选择性地突出关键段落。大量实验结果表明，我们的方法在提升LLM的安全对齐的同时，能够更好地平衡安全性和有用性。