LLM2D

摘要

arXiv:2504.14177v1 宣告类型: 新摘要: 在线AI反馈（OAIF）通过利用在线AI偏好来对齐语言模型（LLMs），为人类反馈强化学习（RLHF）提供了有前途的替代方案。然而，将人类直接替换为AI剥夺了LLMs从二元信号之外获得更多精细的AI监督的机会。在本文中，我们提出了直接优势回归（DAR），这是一种使用在线AI奖励通过加权监督微调来优化策略改进的简单对齐算法。作为一种无需强化学习的方法，DAR 保持了与在线RLHF管道的理论一致性，同时显著降低了实现复杂度并提高学习效率。我们的实验证明，AI奖励是一种始终优于AI偏好的更好的AI监督形式，能够实现更高的人类-AI一致性。此外，使用GPT-4-Turbo和MT-bench的评估表明，DAR 在与OAIF和在线RLHF基线的比较中表现更优。