LLM2D

摘要

偏好学习算法（例如，RLHF 和 DPO）经常被用来引导大型语言模型 (LLM) 生成人类更喜欢的输出，但我们对其内部机制的理解仍然有限。在这项工作中，我们研究了偏好学习训练模型将更高可能性分配给比不太喜欢的输出更喜欢的输出的传统观点，这种观点通过排序准确性来衡量。令人惊讶的是，我们发现大多数最先进的偏好调整模型在常见的偏好数据集上的排序准确率不到 60%。我们进一步推导出偏好调整 LLM 在完美优化 DPO 或 RLHF 目标的情况下将达到的理想排序准确率。我们证明现有的模型表现出显著的校准差距——即观察到的排序准确率和理想排序准确率之间的差距。我们将这种差异归因于 DPO 目标，该目标在经验和理论上都不适合修复参考模型中即使是轻微的排序错误，并推导出一个简单高效的公式来量化学习给定偏好数据点的难度。最后，我们证明当模型接近目标中使用的参考模型时，排序准确率与经验流行的胜率指标高度相关，这进一步揭示了在线策略（例如，RLHF）和离线策略（例如，DPO）偏好学习算法之间的差异。