摘要
人工智能赋能的能力已达到可在现实世界中部署的成熟度,但并不总是能做出正确或安全的决策。解决这些问题的一种方法是利用人工智能控制系统来辅助和支持人类决策,在安全情况下依赖人工智能控制系统,而在关键情况下则依靠人工共同决策者。我们扩展了一种对抗性解释 (AE) 方法,使其适用于最先进的强化学习框架,包括 MuZero。我们提出了对基础智能体架构的多种改进。我们展示了这项技术如何在两个方面得到应用:用于智能决策工具以及增强训练/学习框架。在决策支持的背景下,对抗性解释通过突出那些需要改变才能获得不同 AI 推荐决策的上下文因素来帮助用户做出正确的决策。作为对抗性解释的另一个好处,我们展示了学习到的 AI 控制系统能够抵抗对抗性篡改。此外,我们通过引入战略性相似的自动编码器 (SSA) 来补充 AE,以帮助用户识别和理解 AI 系统正在考虑的所有显著因素。在训练/学习框架中,这项技术可以通过人机交互来改进 AI 的决策和解释。最后,为了识别哪些 AI 决策最能受益于人工监督,我们将此组合系统与我们先前关于对任何时间点决策关键性的统计验证分析的成果联系起来。