LLM2D
通过随机选择实现可关闭代理
Towards shutdownable agents via stochastic choice
作者: Elliott Thornley, Alexander Roman, Christos Ziakas, Leyton Ho, Louis Thomson
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2407.00805v3

摘要

arXiv:2407.00805v3 通知类型: 替换 摘要: 有些人担心先进的类人代理可能会抗拒被关闭。不完整偏好数提案 (IPP) 是一个确保这种情况不会发生的思路。IPP 的关键部分是使用一种新颖的“相同长度轨迹折扣奖励 (DREST)”奖励函数来训练代理,使其 (1) 在每段轨迹长度条件下有效地追求目标(成为“有用”),(2) 在不同的轨迹长度之间进行随机选择(对轨迹长度保持“中立”)。在本文中,我们提出了评估“有用性”和“中立性”的度量标准。我们使用 DREST 奖励函数来训练简单的代理在网格世界中导航,并发现这些代理学会了变得“有用”和“中立”。因此,我们的结果表明,DREST 奖励函数也可以训练高级代理变得“有用”和“中立”,从而使得这些高级代理既有用又有关闭的可能性。