摘要
奖励模型对于使模型符合指令至关重要,通常遵循两种流行范式之一进行训练:Bradley-Terry 风格或回归风格。然而,缺乏证据表明在数据充分匹配的情况下,一种方法优于另一种。这主要是因为这些方法需要以不同(但互不兼容)的格式收集数据,这意味着现有公共数据集中没有充分匹配的数据。为了解决这个问题,我们在 HelpSteer2 数据集中发布了偏好注释(专为 Bradley-Terry 训练设计),以补充现有的评分(专为回归风格训练设计)。为了提高数据可解释性,偏好注释附带了人工编写的理由。利用这些数据,我们首次对数据充分匹配的情况下 Bradley-Terry 和回归模型进行了正面比较。基于这种比较得出的见解,我们提出了一种结合 Bradley-Terry 和回归奖励建模的新方法。使用这种方法调优的 Llama-3.1-70B-Instruct 模型在 RewardBench 上得分 94.1,截至 2024 年 10 月 1 日,在 140 多个奖励模型中排名第一。我们还展示了这种奖励模型在 RLHF 中使模型符合指令的有效性。我们将此数据集(CC-BY-4.0 许可证)开源至 https://huggingface.co/datasets/nvidia/HelpSteer2,并将训练后的奖励模型公开发布至 https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward。