摘要
arXiv:2504.14177v1 宣告类型: 新
摘要: 在线AI反馈(OAIF)通过利用在线AI偏好来对齐语言模型(LLMs),为人类反馈强化学习(RLHF)提供了有前途的替代方案。然而,将人类直接替换为AI剥夺了LLMs从二元信号之外获得更多精细的AI监督的机会。在本文中,我们提出了直接优势回归(DAR),这是一种使用在线AI奖励通过加权监督微调来优化策略改进的简单对齐算法。作为一种无需强化学习的方法,DAR 保持了与在线RLHF管道的理论一致性,同时显著降低了实现复杂度并提高学习效率。我们的实验证明,AI奖励是一种始终优于AI偏好的更好的AI监督形式,能够实现更高的人类-AI一致性。此外,使用GPT-4-Turbo和MT-bench的评估表明,DAR 在与OAIF和在线RLHF基线的比较中表现更优。