LLM2D
什么是AI安全?我们希望它是怎样的?
What Is AI Safety? What Do We Want It to Be?
作者: Jacqueline Harding, Cameron Domenico Kirk-Giannini
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2505.02313v1

摘要

arXiv:2505.02313v1 类别:交叉研究 摘要:人工智能安全领域的研究旨在防止或减轻由人工智能系统造成的危害。一种简单而有吸引力的看法认为,人工智能安全作为一个领域的独特性在于其构成性特征:只要一项研究项目旨在防止或减少由人工智能系统造成的危害,它就属于人工智能安全领域。称这种简单而吸引人的说法为“安全观念”下的人工智能安全。尽管这种说法简单且有吸引力,但我们认为“安全观念”与人工智能安全研究者和组织在思考和谈论人工智能安全方面的两个趋势存在紧张关系:首先,倾向于将人工智能安全研究的目标描述为未来系统所带来的灾难性风险;其次,人工智能安全可以被视为安全工程的一个分支这一日益流行的看法越来越受欢迎。采用概念工程的方法,我们认为这些趋势是不幸运的:当考虑最适合拥有的人工智能安全的概念时,有充分的理由认为“安全观念”是正确的答案。从描述的角度来看,“安全观念”让我们能够看到历史上被视为人工智能安全领域核心工作的内容与被视为边缘工作的内容,如偏差、错误信息和隐私,之间是如何连续的。从规范的角度来看,认真对待“安全观念”意味着基于它们的优点来处理所有防止或减轻由人工智能系统造成的危害的努力,而不是随意区分它们。