LLM2D

摘要

将大型语言模型 (LLM) 与人类偏好相一致被认为是提高 LLM 交互质量的关键。然而，在这个多元化的世界中，由于标注者不同的品味，人类的偏好可能会有所不同，这阻碍了 LLM 对齐方法的有效性。本文首次对奖励模型的实验扩展定律进行了定量分析，该定律的奖励模型大小从 13 亿到 70 亿个参数不等，并使用表现出不同偏好的用户反馈进行训练。我们的分析表明，多样化的人类偏好的影响取决于模型大小和数据大小。具有足够容量的更大模型可以减轻多样化偏好的负面影响，而较小的模型则难以适应它们。为了减轻多样化偏好的影响，我们引入了一个新的指标，预期校准误差 (ECE)，来评估 RM 并展示它们与 LLM 对齐性能的明显正相关性。此外，我们提出了一种多目标奖励学习方法 (MORE) 来提高 RM 在共享偏好上的校准性能。通过对四种模型和五个用户偏好数据集的实验，我们发现校准误差可以作为评估 RM 的关键指标，并且 MORE 可以获得优异的对齐性能。