LLM2D
_RATE: 奖励模型中不完美反事实的因果可解释性_
RATE: Causal Explainability of Reward Models with Imperfect Counterfactuals
作者: David Reber, Sean Richardson, Todd Nief, Cristina Garbacea, Victor Veitch
发布日期: 2/5/2025
arXiv ID: 2410.11348

摘要

arXiv:2410.11348v2 宣告类型: 替换交叉 摘要:奖励模型在对齐或评估大语言模型(LLM)时,常被用作人类偏好的代理。然而,奖励模型是黑箱模型,通常不清楚它们实际上在奖励什么。在本文中,我们开发了基于重写属性处理估计器(RATE)作为一种有效方法,用于测量奖励模型对响应的高层属性(如情感、有用性或复杂性)的敏感性。重要的是,RATE 测量的是属性对奖励的因果效应。RATE 使用大语言模型(LLM)重写响应,以生成可用于测量因果效应的不完美反事实示例。一个关键挑战在于,这些重写在一定程度上不完美,可能会在估计奖励模型对属性敏感性中引入大量偏差。RATE 的核心思想是通过两次重写来调整这种不完美重写的影响。我们证明了RATE程序的有效性,并且通过实验展示了其作为估计器的有效性。