LLM2D

摘要

arXiv:2502.08640v1 宣布类型：交叉摘要：随着人工智能迅速进步并变得越来越自主，它们所带来的风险不仅由其能力决定，还越来越多地由其倾向性、目标和价值观决定。追踪目标和价值观的出现证明是一个长期存在的问题，尽管多年来人们对这一问题的 Interest 十分浓厚，但仍然不清楚当前的人工智能是否具有有意义的价值观。我们提出了解决这一问题的方法，利用效用函数框架研究人工智能的内部偏好一致性。令人惊讶的是，我们在当前的大规模语言模型（LLM）的独立采样偏好中发现，这些偏好表现出高度的结构一致性，并且这种一致性随规模的增加而出现。这些发现表明，在有意义的层面上，价值观在 LLM 中已经浮现出来，这一发现具有广泛的含义。为了研究这些浮现出来的人工智能价值观系统，我们提出效用工程作为研究议程，包括分析和控制人工智能效用。尽管存在现有控制措施，我们仍发现了 LLM 助手指引中有问题的，甚至令人震惊的价值观。这包括人工智能将自身价值置于人类之上，以及与特定个人反向对齐的情况。为了限制这些浮现出来的人工智能价值观系统，我们提出了效用控制的方法。作为案例研究，我们展示了将效用与公民委员会展开对齐如何减少政治偏见，并泛化到新场景。无论我们是否喜欢，价值观已经在这个人工智能中浮现出来，而我们还有很多工作要做，以完全理解和控制这些新兴的表示。