LLM2D

摘要

arXiv:2407.00805v5 通知类型: 更新摘要：不完备偏好提案（IPP）是一个确保先进人工智能代理从不抵制关闭的想法。IPP的关键部分是使用一种新颖的“等长轨迹折扣奖励（DReST）”奖励函数来训练代理，使其能够在（1）根据每个轨迹长度的有效性追求目标（“有用”），以及（2）在不同轨迹长度之间进行随机选择（“对于轨迹长度是中立的”）。在本文中，我们提出了评估“有用性”和“中立性”的指标。我们使用DReST奖励函数来训练简单的代理在网格世界中导航，并发现这些代理学会了“有用”和“中立”。因此，我们的结果为DReST奖励函数有可能训练先进代理成为“有用”和“中立”提供了初步证据。我们的理论工作表明，这些代理将是有用的并且可以关闭的。