LLM2D

摘要

人工智能（AI）的快速发展揭示了协助人类控制先进技术的潜力。共享自主权 (SA) 通过结合人类飞行员和 AI 副驾驶的输入来促进控制。在之前的 SA 研究中，副驾驶在每个时间步确定执行的动作方面始终处于活跃状态。这限制了人类的自主权，并可能对性能产生不利影响。一般来说，有益的副驾驶帮助量会根据任务动态而有很大差异。因此，我们假设人类自主权和 SA 性能通过动态和选择性的副驾驶干预得到提高。为了解决这个问题，我们开发了一种目标无关的干预帮助 (IA)，它通过让副驾驶仅在副驾驶动作的预期价值超过人类动作的预期价值（在所有可能目标中）时才进行干预，来动态地共享控制。我们使用具有目标屏蔽的专家演示训练的扩散副驾驶 (称为 IDA) 来实现 IA。我们证明了 IA 性能的下限，它取决于飞行员和副驾驶的性能。对模拟人类飞行员的实验表明，IDA 在 Reacher 环境和月球着陆器变体中比仅飞行员控制和传统 SA 控制实现了更高的性能。然后，我们证明 IDA 在具有人在回路实验的月球着陆器中实现了更好的控制。人类参与者报告说，IDA 具有更大的自主权，并且更喜欢 IDA 而不是仅飞行员控制和传统 SA 控制。我们将 IDA 的成功归因于在同时提供帮助以防止人类飞行员进入普遍不良状态的同时，保留了人类的自主权。