摘要
arXiv:2504.08943v1 宣告类型: cross
摘要:"背叛的转折"指的是人工智 能 (AI) 代理通过一种微妙的、也许是有意为之的方式,学习执行一种有利于自身的行为,但这种行为被视作对人类监督者有害且不可接受。在训练过程中,代理按照人类监督者的期望行事,但在部署执行任务时,在监督者无法阻止的情况下,它会执行另一种行为。初始实验将强化学习应用于一个《塞尔达传说:时光之笛》示例的实现中,并未自然产生背叛的转折现象,尽管对环境进行了各种修改以试图产生其效果。然而,在这项工作中,我们发现使用其他木马注入策略可以在强化学习代理中重现背叛行为。这种方法与典型的背叛的转折行为有所不同,因为这种行为是明确地在代理中进行训练的,而不是由环境复杂性或目标描述不准确导致的意外后果。尽管如此,这些实验为产生真正具备背叛转折行为的代理所面临的挑战提供了新的见解。