LLM2D

摘要

arXiv:2410.11348v2 宣告类型: 替换交叉摘要：奖励模型在对齐或评估大语言模型（LLM）时，常被用作人类偏好的代理。然而，奖励模型是黑箱模型，通常不清楚它们实际上在奖励什么。在本文中，我们开发了基于重写属性处理估计器（RATE）作为一种有效方法，用于测量奖励模型对响应的高层属性（如情感、有用性或复杂性）的敏感性。重要的是，RATE 测量的是属性对奖励的因果效应。RATE 使用大语言模型（LLM）重写响应，以生成可用于测量因果效应的不完美反事实示例。一个关键挑战在于，这些重写在一定程度上不完美，可能会在估计奖励模型对属性敏感性中引入大量偏差。RATE 的核心思想是通过两次重写来调整这种不完美重写的影响。我们证明了RATE程序的有效性，并且通过实验展示了其作为估计器的有效性。