LLM2D
utility工程:分析和控制AI中 emergent 值系统
Utility Engineering: Analyzing and Controlling Emergent Value Systems in AIs
作者: Mantas Mazeika, Xuwang Yin, Rishub Tamirisa, Jaehyuk Lim, Bruce W. Lee, Richard Ren, Long Phan, Norman Mu, Adam Khoja, Oliver Zhang, Dan Hendrycks
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2502.08640v1

摘要

arXiv:2502.08640v1 宣布类型:交叉 摘要:随着人工智能迅速进步并变得越来越自主,它们所带来的风险不仅由其能力决定,还越来越多地由其倾向性、目标和价值观决定。追踪目标和价值观的出现证明是一个长期存在的问题,尽管多年来人们对这一问题的 Interest 十分浓厚,但仍然不清楚当前的人工智能是否具有有意义的价值观。我们提出了解决这一问题的方法,利用效用函数框架研究人工智能的内部偏好一致性。令人惊讶的是,我们在当前的大规模语言模型(LLM)的独立采样偏好中发现,这些偏好表现出高度的结构一致性,并且这种一致性随规模的增加而出现。这些发现表明,在有意义的层面上,价值观在 LLM 中已经浮现出来,这一发现具有广泛的含义。为了研究这些浮现出来的人工智能价值观系统,我们提出效用工程作为研究议程,包括分析和控制人工智能效用。尽管存在现有控制措施,我们仍发现了 LLM 助手指引中有问题的,甚至令人震惊的价值观。这包括人工智能将自身价值置于人类之上,以及与特定个人反向对齐的情况。为了限制这些浮现出来的人工智能价值观系统,我们提出了效用控制的方法。作为案例研究,我们展示了将效用与公民委员会展开对齐如何减少政治偏见,并泛化到新场景。无论我们是否喜欢,价值观已经在这个人工智能中浮现出来,而我们还有很多工作要做,以完全理解和控制这些新兴的表示。