摘要
arXiv:2410.11348v2 宣告类型: 替换交叉
摘要:奖励模型在对齐或评估大语言模型(LLM)时,常被用作人类偏好的代理。然而,奖励模型是黑箱模型,通常不清楚它们实际上在奖励什么。在本文中,我们开发了基于重写属性处理估计器(RATE)作为一种有效方法,用于测量奖励模型对响应的高层属性(如情感、有用性或复杂性)的敏感性。重要的是,RATE 测量的是属性对奖励的因果效应。RATE 使用大语言模型(LLM)重写响应,以生成可用于测量因果效应的不完美反事实示例。一个关键挑战在于,这些重写在一定程度上不完美,可能会在估计奖励模型对属性敏感性中引入大量偏差。RATE 的核心思想是通过两次重写来调整这种不完美重写的影响。我们证明了RATE程序的有效性,并且通过实验展示了其作为估计器的有效性。