LLM2D
通过随机选择实现可关闭的智能体
Towards shutdownable agents via stochastic choice
作者: Elliott Thornley, Alexander Roman, Christos Ziakas, Leyton Ho, Louis Thomson
发布日期: 3/31/2025
arXiv ID: oai:arXiv.org:2407.00805v4

摘要

arXiv:2407.00805v4 宣告类型: 替换 摘要:不完备偏好提案(IPP)是一种确保高级人工代理从不抵制关闭的想法。IPP的关键部分是使用一种新颖的“等长度轨迹的折扣奖励(DReST)”奖励函数来训练代理(1)在每条轨迹长度条件下有效地追求目标(即,具有“有用性”),并(2)在不同的轨迹长度之间随机选择(即,对轨迹长度“中立”)。在本文中,我们提出了一种评估有用性和中立性的度量标准。我们使用DReST奖励函数训练简单的代理来导航网格世界,并发现这些代理学会了具有有用性和中立性。因此,我们的结果提供了一些初步证据,表明DReST奖励函数可能能够训练高级代理具有有用性和中立性。我们的理论工作表明,这些代理将是有用的并且可以关闭的。