摘要
arXiv:2502.11026v2 宣告类型: 替换交叉
摘要:人类反馈强化学习(RLHF)对于使大型语言模型(LLMs)与人类价值观保持一致至关重要。然而,RLHF 在实现复杂性和计算消耗方面不断受到挑战。即使出现了简化方法,如直接偏好优化(DPO)和优势剩余午餐(A-LoL),过拟合和训练不稳定性等问题仍然阻碍了从预期最优性能中实现对齐过程。为了解决现有挑战,我们从变分推断的角度提出了一种新的 RLHF 简化方法,称为变分对齐重加权(VAR)。具体来说,通过直接最小化学习中的 LLM 策略与 RLHF 最优解之间的分布差距,我们将在对齐目标转化为由奖励驱动的重加权监督微调(SFT)形式,这只需要对 SFT 损失进行少量调整即可获得显著提高的训练稳定性和有效性。在全面的对齐和生成基准测试中,我们的 VAR 方法在 LLM 对齐的帮助性和无害性方面实现了具有竞争力的性能。