LLM2D

摘要

arXiv:2407.00805v4 宣告类型: 替换摘要：不完备偏好提案（IPP）是一种确保高级人工代理从不抵制关闭的想法。IPP的关键部分是使用一种新颖的“等长度轨迹的折扣奖励（DReST）”奖励函数来训练代理（1）在每条轨迹长度条件下有效地追求目标（即，具有“有用性”），并（2）在不同的轨迹长度之间随机选择（即，对轨迹长度“中立”）。在本文中，我们提出了一种评估有用性和中立性的度量标准。我们使用DReST奖励函数训练简单的代理来导航网格世界，并发现这些代理学会了具有有用性和中立性。因此，我们的结果提供了一些初步证据，表明DReST奖励函数可能能够训练高级代理具有有用性和中立性。我们的理论工作表明，这些代理将是有用的并且可以关闭的。