摘要
深度强化学习(DRL)算法在解决许多具有挑战性的任务方面取得了巨大成功,但其黑盒特性阻碍了其可解释性和实际应用,使得人类专家难以解释和理解DRL策略。现有的可解释强化学习工作在从DRL策略中提取基于决策树(DT)的策略方面显示出前景,大多数工作都集中在单智能体场景中,而先前在多智能体场景中引入DT策略的尝试主要集中在启发式设计上,这些设计并未提供关于预期回报的任何定量保证。在本文中,我们建立了预言专家策略和最优决策树策略之间回报差距的上界。这使我们能够将DT提取问题重新表述为一个新颖的非欧几里得聚类问题,该问题针对每个智能体的局部观测和动作值空间,动作值作为聚类标签,回报差距的上界作为聚类损失。通过由以其他智能体的当前DT为条件的动作值函数引导的迭代增长DT程序,该算法和上界都扩展到多智能体分散式DT提取。此外,我们提出了回报差距最小化决策树(RGMDT)算法,这是一种令人惊讶的简单设计,并通过利用新颖的正则化信息最大化损失与强化学习相集成。在D4RL等任务上的评估表明,RGMDT 显著优于基于启发式DT的基线,并且在给定的DT复杂性约束(例如,DT节点的最大数量)下可以实现接近最优的回报。