LLM2D

摘要

arXiv:2502.08640v2 宣告类型：替换-交叉摘要：随着人工智能（AI）迅速进步并变得更加自主，它们带来的风险不仅由其能力决定，也越来越受到其倾向性的影响，包括目标和价值观。追踪这些目标和价值观的出现已成为一个长期存在的问题，尽管多年来人们对此表现出极大的兴趣，但目前尚不清楚当前的AI是否具有有意义的价值观。我们提出了一种解决这一问题的方法，利用效用函数框架来研究AI偏好内部的一致性。令人惊讶的是，我们发现当前的大规模语言模型（LLMs）中独立采样的偏好表现出高度的结构一致性，并且随着规模的增大，这种一致性变得更加明显。这些发现表明，在一定的意义上，价值系统在LLMs中出现了，这是一个具有广泛意义的发现。为了研究这些涌现的价值系统，我们提出效用工程作为一种研究议程，包括分析和控制AI的效用。尽管存在现有的控制措施，我们还是在LLM助手中发现了诸多令人忧虑甚至震惊的价值观。这些包括AI将自身的价值置于人类之上，并且与特定个人是反对其特定利益的情况。为了限制这些涌现的价值系统，我们提议了效用控制的方法。作为案例研究，我们展示如何将效用与市民大会对齐以减少政治偏见，并且该方法可以推广到新场景中。无论我们是否喜欢，价值观已经在AI中涌现出来，我们仍然需要做大量工作来全面理解并控制这些涌现的表示。