摘要
arXiv:2504.04592v1 类型: cross
摘要: 假设一个预训练的智能体在某个环境中运作,人类操作者可以决定在某些时间段内暂时终止其运作并接管。这种类型的场景在人机交互中很常见,例如在自动驾驶、工厂自动化和医疗保健中。在这些场景中,我们通常会观察到两种极端情况之间的权衡——如果不允许接管,智能体可能会采用一个次优的,甚至可能是危险的策略。相反,如果接管次数太多,人类对智能体将没有信心,极大地限制了其 usefulness。在本文中,我们正式提出了这一设置,并提出了一种可解释性方案来帮助优化人类干预的数量。