摘要
arXiv:2505.08073v1 通告类型: 新
摘要: 可解释的人工智能(XAI)系统被提出以帮助人们理解人工智能系统是如何产生输出和行为的。由于 sequential 决策的时序特性,解释可强化学习(XRL)具有额外的复杂性。此外,非AI专家不一定有能力修改代理或其策略。我们介绍了一种使用世界模型来为基于模型的深度强化学习代理生成解释的技术。世界模型预测在执行动作时世界将如何变化,从而允许生成反事实轨迹。然而,仅了解用户想要代理做什么还不足以理解代理为什么做了其他事情。我们通过添加一个逆向世界模型来增强基于模型的RL代理,该逆向世界模型预测为了使代理偏好一个给定的反事实动作,世界的状态应该是什么样的。我们展示了向用户展示世界应该是什么样的解释可以显著提高他们对代理策略的理解。我们假设我们的解释可以帮助用户通过操控环境来学习如何控制代理的执行。