LLM2D
更多未必更好:多模型合成偏好数据在DPO安全对齐中的坑fall
More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment
作者: Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02193v1

摘要

arXiv:2504.02193v1 宣布类型: 新 摘要: 在后训练阶段,将大语言模型(LLMs)与人类价值观对齐已成为一个越来越关键的步骤。直接偏好优化(DPO)作为一种简单而有效的替代方法,已经出现,作为从人类反馈中进行强化学习(RLHF)的一种替代方法。合成偏好数据因其低成本和高品质,能够通过单模型或跨模型生成偏好数据实现有效的对齐。我们的研究揭示了与DPO对齐相关的一个引人注目的、特定于安全性的现象:尽管多模型生成的数据通过提供多样化响应,在一般任务(ARC、Hellaswag、MMLU、TruthfulQA、Winogrande)上提高了性能,但也倾向于在训练过程中促进奖励劫持。这可能导致当模型遇到脱缰提示时,具有较高的攻击成功率(ASR)。特别当使用更强的模型如GPT-4o或同一系列中的更大模型生成选定响应,并与目标模型自动生成的拒绝响应配对时,这一问题尤为明显,导致安全性结果显著下降。此外,就安全性而言,仅使用自动生成的响应(单模型生成)对选定和拒绝的配对表现显著优于包含强模型响应的数据配置,无论这些响应是直接用作选定数据还是多模型响应池的一部分。我们证明,多模型偏好数据在选定和拒绝响应之间具有较高的线性可分性,允许模型通过利用表面线索而不是内化稳健的安全约束来进行操作。我们在来自Llama、Mistral和Qwen家族的模型上进行的实验一致验证了这些发现。