摘要
arXiv:2502.01116v1 宣告类型: 新
摘要: 大型语言模型(LLMs)已经成为解决广泛一般性问题和任务的强大工具。尽管如此,在对较小的领域特定数据集进行微调时,这些数据集对于适应特定任务至关重要,但却可能无意中恶化其安全性对齐,即使这些数据集是无辜的。这种现象使得模型更易提供不合适的回答。在本研究中,我们系统地检查了无辜微调场景中安全性对齐恶化的原因。我们的分析确定了三个影响对齐LLMs的关键因素:答案结构、身份校准和角色扮演。此外,我们评估了最先进奖励模型(RMs)的可靠性,这些模型在对齐过程中通常用于指导过程。我们的研究发现,这些RMs频繁无法准确反映人类关于安全性的偏好,突显了它们在实际应用中的局限性。通过揭示这些挑战,我们的工作强调了在微调过程中保持安全性对齐的复杂性,并提供了指导,以帮助开发人员在LLMs中平衡实用性与安全性。在我们的实验中使用的数据集和微调代码可以在 https://github.com/GuanlinLee/llm_instruction_tuning 找到。