摘要
arXiv:2405.17956v3 宣告类型: 更新
摘要: 对于对齐大语言模型(LLMs),先前的工作利用了基于人类反馈的强化学习(RLHF)或直接偏好优化(DPO)的变体。虽然DPO提供了一个基于最大似然估计的更简单的框架,但它牺牲了对语言模型进行轻松调整以最大化辅助、非偏好的目标(例如,调整词汇风格或最小化特定类型的有害内容)的能力,根据LLM设计者的偏好。至关重要的是,这些设计目标可能没有充分的人类标注或表示在可用数据中,不与用户偏好一致,甚至可能无法用二元偏好对来捕获。为了利用DPO的简单性和性能以及RL的通用性,我们提出了一种统一的方法。基于偏好和辅助目标的一个简单分解,我们允许调整LLMs以优化用户和设计者的偏好,无需任何额外的专门或偏好数据、计算成本、稳定性调整或培训不稳定性。所提议的方法,统一偏好优化,展示了有效泛化到用户偏好和辅助目标的能力,同时在一系列模型大小的具有挑战性的基准上保持或超越了对齐性能。