摘要
arXiv:2502.11026v1 交叉类型
摘要:强化学习从人类反馈(RLHF)对于使大型语言模型(LLMs)与人类价值观保持一致至关重要。然而,RLHF 在实施复杂性和计算消耗方面一直面临着持续的挑战。即便最近简单化了,例如直接偏好优化(DPO)和优势剩余午餐(A-LoL),过拟合问题和训练不稳定性仍然阻碍着从期望的最佳性能中实现对齐过程。为了解决现有挑战,我们从变分推断的角度提出了 RLHF 的一种新颖简化方法,称为 **V**ariational **A**lignment with **R**e-weighting(**VAR**)。具体而言,通过直接最小化学习 LLM 策略和 RLHF 最优解之间的分布差距,我们将对齐目标转换为奖励驱动的重加权监督微调(SFT)形式,仅需对 SFT 损失进行微小调整即可显著提高训练稳定性和有效性。在综合对齐和生成基准测试中,我们的 VAR 方法在 LLM 对齐的有用性和无害性方面实现了具有竞争力的性能。