LLM2D

摘要

从偏好反馈中学习是使大型语言模型 (LLM) 与人类价值观保持一致的一种常见做法。传统上，偏好数据被学习并编码成一个标量奖励模型，该模型将价值头连接到 LLM 以生成一个标量分数作为偏好或奖励。然而，标量模型缺乏可解释性，并且众所周知易受数据集中的偏差影响。本文研究利用 LLM 的生成能力来一举解决这两个局限性。具体来说，我们提示预训练的 LLM 生成正面和负面判断，两者都以自然语言形式提供理由支持。自我生成的对比判断对被用于使用直接偏好优化 (DPO) 训练生成性评判。这种使用自我生成的对比判断 (Con-J) 训练生成性评判的提议确保了自然可解释性，因为生成的理由与判断一起，以及在不需要额外奖励头的情况下对偏差的高度鲁棒性。实验结果表明，Con-J 的性能与在相同偏好数据集中训练的标量奖励模型相当，并证明了其在编码人类偏好方面的优越可解释性和鲁棒性。