LLM2D

摘要

arXiv:2410.11348v2 宣告类型: replace-cross 摘要：奖励模型在对齐或评估LLMs时经常被用作人类偏好的代理。然而，奖励模型是一个黑箱，通常不清楚它们实际上是在奖励什么。本文中，我们开发了基于重写的影响度量估计器（RATE）作为有效的方法，用于测量奖励模型对响应高层属性（如情感、有用性和复杂性）的灵敏度。重要的是，RATE衡量的是属性对奖励的因果效应。RATE使用LLMs重新编写响应，生成不完美的反事实实例，可用于衡量因果效应。一个关键挑战是，这些重写是不完美的，可能会在估计奖励模型对属性灵敏度时引入大量偏差。RATE的核心思想是通过重新编写两次来调整这种不完美的重写效应。我们建立了RATE过程的有效性，并通过实验证明它是有效的估计器。