LLM2D

摘要

奖励模型对于使模型符合指令至关重要，通常遵循两种流行范式之一进行训练：Bradley-Terry 风格或回归风格。然而，缺乏证据表明在数据充分匹配的情况下，一种方法优于另一种。这主要是因为这些方法需要以不同（但互不兼容）的格式收集数据，这意味着现有公共数据集中没有充分匹配的数据。为了解决这个问题，我们在 HelpSteer2 数据集中发布了偏好注释（专为 Bradley-Terry 训练设计），以补充现有的评分（专为回归风格训练设计）。为了提高数据可解释性，偏好注释附带了人工编写的理由。利用这些数据，我们首次对数据充分匹配的情况下 Bradley-Terry 和回归模型进行了正面比较。基于这种比较得出的见解，我们提出了一种结合 Bradley-Terry 和回归奖励建模的新方法。使用这种方法调优的 Llama-3.1-70B-Instruct 模型在 RewardBench 上得分 94.1，截至 2024 年 10 月 1 日，在 140 多个奖励模型中排名第一。我们还展示了这种奖励模型在 RLHF 中使模型符合指令的有效性。我们将此数据集（CC-BY-4.0 许可证）开源至 https://huggingface.co/datasets/nvidia/HelpSteer2，并将训练后的奖励模型公开发布至 https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward。