LLM2D
RATE: 奖励模型的因果可解释性与不完美的反事实推理
RATE: Causal Explainability of Reward Models with Imperfect Counterfactuals
作者: David Reber, Sean Richardson, Todd Nief, Cristina Garbacea, Victor Veitch
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2410.11348v2

摘要

arXiv:2410.11348v2 宣告类型: replace-cross 摘要:奖励模型在对齐或评估LLMs时经常被用作人类偏好的代理。然而,奖励模型是一个黑箱,通常不清楚它们实际上是在奖励什么。本文中,我们开发了基于重写的影响度量估计器(RATE)作为有效的方法,用于测量奖励模型对响应高层属性(如情感、有用性和复杂性)的灵敏度。重要的是,RATE衡量的是属性对奖励的因果效应。RATE使用LLMs重新编写响应,生成不完美的反事实实例,可用于衡量因果效应。一个关键挑战是,这些重写是不完美的,可能会在估计奖励模型对属性灵敏度时引入大量偏差。RATE的核心思想是通过重新编写两次来调整这种不完美的重写效应。我们建立了RATE过程的有效性,并通过实验证明它是有效的估计器。