LLM2D
强偏好影响价值对齐的鲁棒性
Strong Preferences Affect the Robustness of Value Alignment
作者: Ziwei Xu, Mohan Kankanhalli
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02451v1

摘要

价值对齐旨在确保大型语言模型 (LLM) 和其他 AI 代理的行为符合人类价值观,对于确保这些系统的安全性和可信赖性至关重要。价值对齐的关键组成部分是将人类偏好建模为人类价值观的体现。在本文中,我们通过检查偏好模型的敏感性来研究价值对齐的稳健性。具体来说,我们提出以下问题:一些偏好概率的变化如何影响这些模型对其他偏好的预测?为了回答这个问题,我们通过检查广泛使用的偏好模型对模型偏好微小变化的敏感性,从理论上分析了它们的稳健性。我们的研究结果表明,在 Bradley-Terry 和 Placket-Luce 模型中,偏好概率会随着其他偏好的变化而发生显著变化,尤其是在这些偏好占主导地位时(即概率接近 0 或 1)。我们确定了这些模型中敏感性变得显著的具体条件,并讨论了这对 AI 系统中价值对齐的稳健性和安全性的实际意义。