LLM2D

摘要

arXiv:2504.14838v1 宣布类型: 新摘要: 表征人类偏好的奖励模型 (RM) 在优化大型语言模型 (LLM) 的输出方面发挥着重要作用，例如通过基于人类反馈的强化学习 (RLHF) 或拒绝采样。然而，RM 的可靠性始终存在不确定性问题，即具有较高奖励的 LLM 输出可能与实际人类偏好不一致。目前缺乏一个令人信服的指标来量化 RMs 的可靠性。为了解决这一问题，我们提出了 \textit{\underline{R}eliable at \underline{$\eta$}} (RETA) 指标，该指标通过评估由 RM 评估的前 $\eta$ 分位数响应的平均质量（由 Oracle 评分）直接衡量 RM 的可靠性。在 RETA 之上，我们提供了一种集成的基准测试管道，任何人都可以在不增加额外 Oracle 标注成本的情况下评估自己的 RM。广泛的实证研究表明，RETA 指标的稳定性优越，为各种公开可用和专有的 RMs 提供了坚实的可靠性评估。在处理不可靠的 RM 时，我们可以使用 RETA 指标来识别选择响应的最佳分位数。