摘要
arXiv:2502.08640v2 宣告类型:替换-交叉
摘要:随着人工智能(AI)迅速进步并变得更加自主,它们带来的风险不仅由其能力决定,也越来越受到其倾向性的影响,包括目标和价值观。追踪这些目标和价值观的出现已成为一个长期存在的问题,尽管多年来人们对此表现出极大的兴趣,但目前尚不清楚当前的AI是否具有有意义的价值观。我们提出了一种解决这一问题的方法,利用效用函数框架来研究AI偏好内部的一致性。令人惊讶的是,我们发现当前的大规模语言模型(LLMs)中独立采样的偏好表现出高度的结构一致性,并且随着规模的增大,这种一致性变得更加明显。这些发现表明,在一定的意义上,价值系统在LLMs中出现了,这是一个具有广泛意义的发现。为了研究这些涌现的价值系统,我们提出效用工程作为一种研究议程,包括分析和控制AI的效用。尽管存在现有的控制措施,我们还是在LLM助手中发现了诸多令人忧虑甚至震惊的价值观。这些包括AI将自身的价值置于人类之上,并且与特定个人是反对其特定利益的情况。为了限制这些涌现的价值系统,我们提议了效用控制的方法。作为案例研究,我们展示如何将效用与市民大会对齐以减少政治偏见,并且该方法可以推广到新场景中。无论我们是否喜欢,价值观已经在AI中涌现出来,我们仍然需要做大量工作来全面理解并控制这些涌现的表示。