摘要
人工智能对齐领域致力于引导人工智能系统朝着人类的目标、偏好和伦理原则发展。其贡献极大地提升了当今人工智能模型的输出质量、安全性和可信度。本文探讨了我们在所有人工智能对齐工作中都面临的一个根本性挑战,我们称之为“人工智能对齐悖论”:我们越能使人工智能模型与我们的价值观相符,就越可能使对手更容易使其偏离正轨。我们通过勾勒出针对语言模型的三个具体示例来阐述这一悖论,每个示例都对应着对手可能利用该悖论的不同方式。随着人工智能对现实世界影响的日益增强,迫切需要广大研究人员意识到人工智能对齐悖论,并努力寻找减轻其影响的方法,以确保人工智能造福人类。