摘要
将大型语言模型 (LLM) 与人类偏好相一致被认为是提高 LLM 交互质量的关键。然而,在这个多元化的世界中,由于标注者不同的品味,人类的偏好可能会有所不同,这阻碍了 LLM 对齐方法的有效性。本文首次对奖励模型的实验扩展定律进行了定量分析,该定律的奖励模型大小从 13 亿到 70 亿个参数不等,并使用表现出不同偏好的用户反馈进行训练。我们的分析表明,多样化的人类偏好的影响取决于模型大小和数据大小。具有足够容量的更大模型可以减轻多样化偏好的负面影响,而较小的模型则难以适应它们。为了减轻多样化偏好的影响,我们引入了一个新的指标,预期校准误差 (ECE),来评估 RM 并展示它们与 LLM 对齐性能的明显正相关性。此外,我们提出了一种多目标奖励学习方法 (MORE) 来提高 RM 在共享偏好上的校准性能。通过对四种模型和五个用户偏好数据集的实验,我们发现校准误差可以作为评估 RM 的关键指标,并且 MORE 可以获得优异的对齐性能。