摘要
奖励模型 (RM) 是使大型语言模型 (LLM) 的输出与人类价值观保持一致的关键组成部分。RM 通过预测和比较对同一提示的 LLM 可能响应的奖励分数来近似人类偏好。然而,由于它们通常是具有标量输出头的 LLM 的修改版本,因此 RM 是难以解释的“黑箱”。更透明的 RM 将增强对 LLM 对齐的信任。在这项工作中,我们建议使用对比解释来解释 RM 做出的任何二元响应比较。具体来说,我们生成一组与原始比较类似的多样化新比较,以表征 RM 的局部行为。构成新比较的扰动响应旨在显式修改手动指定的高级评估属性,RM 行为分析以此为基础。在定量实验中,我们验证了我们的方法在寻找高质量对比解释方面的有效性。然后,我们展示了我们的方法在调查 RM 对每个评估属性的全局敏感性方面的定性实用性,并演示了如何自动提取代表性示例来解释和比较不同 RM 的行为。我们将我们的方法视为一个灵活的 RM 解释框架,为更可解释和值得信赖的 LLM 对齐奠定了基础。