LLM2D

摘要

arXiv:2502.01116v1 宣告类型: 新摘要: 大型语言模型（LLMs）已经成为解决广泛一般性问题和任务的强大工具。尽管如此，在对较小的领域特定数据集进行微调时，这些数据集对于适应特定任务至关重要，但却可能无意中恶化其安全性对齐，即使这些数据集是无辜的。这种现象使得模型更易提供不合适的回答。在本研究中，我们系统地检查了无辜微调场景中安全性对齐恶化的原因。我们的分析确定了三个影响对齐LLMs的关键因素：答案结构、身份校准和角色扮演。此外，我们评估了最先进奖励模型（RMs）的可靠性，这些模型在对齐过程中通常用于指导过程。我们的研究发现，这些RMs频繁无法准确反映人类关于安全性的偏好，突显了它们在实际应用中的局限性。通过揭示这些挑战，我们的工作强调了在微调过程中保持安全性对齐的复杂性，并提供了指导，以帮助开发人员在LLMs中平衡实用性与安全性。在我们的实验中使用的数据集和微调代码可以在 https://github.com/GuanlinLee/llm_instruction_tuning 找到。