LLM2D

摘要

arXiv:2407.00805v3 通知类型: 替换摘要: 有些人担心先进的类人代理可能会抗拒被关闭。不完整偏好数提案 (IPP) 是一个确保这种情况不会发生的思路。IPP 的关键部分是使用一种新颖的“相同长度轨迹折扣奖励 (DREST)”奖励函数来训练代理，使其 (1) 在每段轨迹长度条件下有效地追求目标（成为“有用”），(2) 在不同的轨迹长度之间进行随机选择（对轨迹长度保持“中立”）。在本文中，我们提出了评估“有用性”和“中立性”的度量标准。我们使用 DREST 奖励函数来训练简单的代理在网格世界中导航，并发现这些代理学会了变得“有用”和“中立”。因此，我们的结果表明，DREST 奖励函数也可以训练高级代理变得“有用”和“中立”，从而使得这些高级代理既有用又有关闭的可能性。