摘要
arXiv:2407.00805v5 通知类型: 更新
摘要:不完备偏好提案(IPP)是一个确保先进人工智能代理从不抵制关闭的想法。IPP的关键部分是使用一种新颖的“等长轨迹折扣奖励(DReST)”奖励函数来训练代理,使其能够在(1)根据每个轨迹长度的有效性追求目标(“有用”),以及(2)在不同轨迹长度之间进行随机选择(“对于轨迹长度是中立的”)。在本文中,我们提出了评估“有用性”和“中立性”的指标。我们使用DReST奖励函数来训练简单的代理在网格世界中导航,并发现这些代理学会了“有用”和“中立”。因此,我们的结果为DReST奖励函数有可能训练先进代理成为“有用”和“中立”提供了初步证据。我们的理论工作表明,这些代理将是有用的并且可以关闭的。