摘要
arXiv:2410.11348v2 宣告类型: replace-cross
摘要:奖励模型在对齐或评估LLMs时经常被用作人类偏好的代理。然而,奖励模型是一个黑箱,通常不清楚它们实际上是在奖励什么。本文中,我们开发了基于重写的影响度量估计器(RATE)作为有效的方法,用于测量奖励模型对响应高层属性(如情感、有用性和复杂性)的灵敏度。重要的是,RATE衡量的是属性对奖励的因果效应。RATE使用LLMs重新编写响应,生成不完美的反事实实例,可用于衡量因果效应。一个关键挑战是,这些重写是不完美的,可能会在估计奖励模型对属性灵敏度时引入大量偏差。RATE的核心思想是通过重新编写两次来调整这种不完美的重写效应。我们建立了RATE过程的有效性,并通过实验证明它是有效的估计器。