LLM2D

摘要

为了改进人类偏好对齐训练，现有研究开发了许多包含标注为“更偏好”或“不太偏好”的偏好对的偏好数据集。这些偏好对通常用于通过奖励建模将人类偏好编码成单个数值，该数值在从人类反馈中进行强化学习 (RLHF) 时充当奖励信号。然而，将这些人类偏好表示为数值会使这些偏好的分析变得复杂，并限制其在 RLHF 以外的更广泛应用。相反，在这项工作中，我们引入了一个偏好表示学习任务，旨在构建更丰富、更结构化的的人类偏好表示。我们进一步开发了一个更通用的框架，即通过偏好对学习人类偏好的表示（即 LRHP），该框架超越了传统的奖励建模，以解决这一任务。我们在两个下游任务中验证了偏好表示的效用：偏好数据选择和偏好边际预测。基于表示中的人类偏好，我们在两个任务中都取得了良好的性能，显著优于基线。