LLM2D

摘要

arXiv:2504.02193v1 宣布类型: 新摘要: 在后训练阶段，将大语言模型（LLMs）与人类价值观对齐已成为一个越来越关键的步骤。直接偏好优化（DPO）作为一种简单而有效的替代方法，已经出现，作为从人类反馈中进行强化学习（RLHF）的一种替代方法。合成偏好数据因其低成本和高品质，能够通过单模型或跨模型生成偏好数据实现有效的对齐。我们的研究揭示了与DPO对齐相关的一个引人注目的、特定于安全性的现象：尽管多模型生成的数据通过提供多样化响应，在一般任务（ARC、Hellaswag、MMLU、TruthfulQA、Winogrande）上提高了性能，但也倾向于在训练过程中促进奖励劫持。这可能导致当模型遇到脱缰提示时，具有较高的攻击成功率（ASR）。特别当使用更强的模型如GPT-4o或同一系列中的更大模型生成选定响应，并与目标模型自动生成的拒绝响应配对时，这一问题尤为明显，导致安全性结果显著下降。此外，就安全性而言，仅使用自动生成的响应（单模型生成）对选定和拒绝的配对表现显著优于包含强模型响应的数据配置，无论这些响应是直接用作选定数据还是多模型响应池的一部分。我们证明，多模型偏好数据在选定和拒绝响应之间具有较高的线性可分性，允许模型通过利用表面线索而不是内化稳健的安全约束来进行操作。我们在来自Llama、Mistral和Qwen家族的模型上进行的实验一致验证了这些发现。