LLM2D
在大型语言模型中建立奖励模型可靠性的指标
Establishing Reliability Metrics for Reward Models in Large Language Models
作者: Yizhou Chen, Yawen Liu, Xuesi Wang, Qingtao Yu, Guangda Huzhang, Anxiang Zeng, Han Yu, Zhiming Zhou
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14838v1

摘要

arXiv:2504.14838v1 宣布类型: 新 摘要: 表征人类偏好的奖励模型 (RM) 在优化大型语言模型 (LLM) 的输出方面发挥着重要作用,例如通过基于人类反馈的强化学习 (RLHF) 或拒绝采样。然而,RM 的可靠性始终存在不确定性问题,即具有较高奖励的 LLM 输出可能与实际人类偏好不一致。目前缺乏一个令人信服的指标来量化 RMs 的可靠性。为了解决这一问题,我们提出了 \textit{\underline{R}eliable at \underline{$\eta$}} (RETA) 指标,该指标通过评估由 RM 评估的前 $\eta$ 分位数响应的平均质量(由 Oracle 评分)直接衡量 RM 的可靠性。在 RETA 之上,我们提供了一种集成的基准测试管道,任何人都可以在不增加额外 Oracle 标注成本的情况下评估自己的 RM。广泛的实证研究表明,RETA 指标的稳定性优越,为各种公开可用和专有的 RMs 提供了坚实的可靠性评估。在处理不可靠的 RM 时,我们可以使用 RETA 指标来识别选择响应的最佳分位数。