LLM2D

摘要

arXiv:2210.04723v5 公告类型: 替换摘要：强化学习（RL）系统可能复杂且难以解释，使得非AI专家难以理解或干预其决策。这在一定程度上是由于RL的顺序性质，即采取行动是因为其未来奖励的可能性。然而，RL代理会丢弃其训练中的定性特征，这使得恢复用户可理解的关于“为什么”采取某行动的信息变得困难。我们提出了一种称为经验解释的技术，通过与RL策略一起训练影响预测器来生成反事实解释。影响预测器是学习不同奖励来源如何在不同状态下影响代理的模型，从而恢复策略如何反映环境的信息。两项人类评估研究发现，与那些被呈现其他标准类型解释的参与者相比，被呈现经验解释的参与者更能够正确猜测代理会做什么。参与者还发现，经验解释更具可理解性、满意度、完整性、有用性和准确性。定性分析提供了关于经验解释最有用的因素以及参与者希望从解释中获得的特性信息。