LLM2D

摘要

价值对齐旨在确保大型语言模型 (LLM) 和其他 AI 代理的行为符合人类价值观，对于确保这些系统的安全性和可信赖性至关重要。价值对齐的关键组成部分是将人类偏好建模为人类价值观的体现。在本文中，我们通过检查偏好模型的敏感性来研究价值对齐的稳健性。具体来说，我们提出以下问题：一些偏好概率的变化如何影响这些模型对其他偏好的预测？为了回答这个问题，我们通过检查广泛使用的偏好模型对模型偏好微小变化的敏感性，从理论上分析了它们的稳健性。我们的研究结果表明，在 Bradley-Terry 和 Placket-Luce 模型中，偏好概率会随着其他偏好的变化而发生显著变化，尤其是在这些偏好占主导地位时（即概率接近 0 或 1）。我们确定了这些模型中敏感性变得显著的具体条件，并讨论了这对 AI 系统中价值对齐的稳健性和安全性的实际意义。