LLM2D

摘要

arXiv:2504.04592v1 类型: cross 摘要: 假设一个预训练的智能体在某个环境中运作，人类操作者可以决定在某些时间段内暂时终止其运作并接管。这种类型的场景在人机交互中很常见，例如在自动驾驶、工厂自动化和医疗保健中。在这些场景中，我们通常会观察到两种极端情况之间的权衡——如果不允许接管，智能体可能会采用一个次优的，甚至可能是危险的策略。相反，如果接管次数太多，人类对智能体将没有信心，极大地限制了其 usefulness。在本文中，我们正式提出了这一设置，并提出了一种可解释性方案来帮助优化人类干预的数量。