LLM2D
“你就是不能这么干,随意杀人”:向人类终结者解释智能体行为
"You just can't go around killing people" Explaining Agent Behavior to a Human Terminator
作者: Uri Menkes, Assaf Hallak, Ofra Amir
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04592v1

摘要

arXiv:2504.04592v1 类型: cross 摘要: 假设一个预训练的智能体在某个环境中运作,人类操作者可以决定在某些时间段内暂时终止其运作并接管。这种类型的场景在人机交互中很常见,例如在自动驾驶、工厂自动化和医疗保健中。在这些场景中,我们通常会观察到两种极端情况之间的权衡——如果不允许接管,智能体可能会采用一个次优的,甚至可能是危险的策略。相反,如果接管次数太多,人类对智能体将没有信心,极大地限制了其 usefulness。在本文中,我们正式提出了这一设置,并提出了一种可解释性方案来帮助优化人类干预的数量。