摘要
从偏好反馈中学习是使大型语言模型 (LLM) 与人类价值观保持一致的一种常见做法。传统上,偏好数据被学习并编码成一个标量奖励模型,该模型将价值头连接到 LLM 以生成一个标量分数作为偏好或奖励。然而,标量模型缺乏可解释性,并且众所周知易受数据集中的偏差影响。本文研究利用 LLM 的生成能力来一举解决这两个局限性。具体来说,我们提示预训练的 LLM 生成正面和负面判断,两者都以自然语言形式提供理由支持。自我生成的对比判断对被用于使用直接偏好优化 (DPO) 训练生成性评判。这种使用自我生成的对比判断 (Con-J) 训练生成性评判的提议确保了自然可解释性,因为生成的理由与判断一起,以及在不需要额外奖励头的情况下对偏差的高度鲁棒性。实验结果表明,Con-J 的性能与在相同偏好数据集中训练的标量奖励模型相当,并证明了其在编码人类偏好方面的优越可解释性和鲁棒性。