LLM2D
关机并不无忧
Off-Switching Not Guaranteed
作者: Sven Neth
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2502.08864v1

摘要

arXiv:2502.08864v1 宣布类型: 新增 摘要: Hadfield-Menell等人(2017)提出了Off-Switch Game模型,这是一种人类与人工智能合作的模型,在这种模型中,因为人工智能 agent 对人类的偏好不确定,所以它们总是将决定权给予人类。我解释了两个为什么 AI agent 可能不会遵循这种行为的原因。首先,AI agent 可能不重视学习。其次,即使 AI agent 重视学习,它们也不一定能准确地学会我们的实际偏好。