LLM2D
"信任我çe劫拷enze" 向人类天\application>终结者解释代理行为
"Trust me on this" Explaining Agent Behavior to a Human Terminator
作者: Uri Menkes, Assaf Hallak, Ofra Amir
发布日期: 5/6/2025
arXiv ID: oai:arXiv.org:2504.04592v2

摘要

arXiv:2504.04592v2 更新类型: 替换-交叉 摘要: 考虑一个预训练代理在环境中运行,且有人类操作员可以在某些时间段内决定暂时终止其运行并接手操作的场景。这种类型的场景在人机交互中很常见,例如在自动驾驶、工厂自动化和医疗保健领域。在这些场景中,我们通常会观察到两种极端情况之间的权衡——如果不允许操作员接管,那么代理可能会执行一个不优化的、甚至可能是危险的策略。相反,如果接管次数过多,人类操作员将对代理缺乏信心,大大限制了其有用性。在本文中,我们形式化了这种设置,并提出了一种可解释性方案,以帮助优化人类干预的数量。