LLM2D

摘要

深度强化学习（DRL）算法在解决许多具有挑战性的任务方面取得了巨大成功，但其黑盒特性阻碍了其可解释性和实际应用，使得人类专家难以解释和理解DRL策略。现有的可解释强化学习工作在从DRL策略中提取基于决策树（DT）的策略方面显示出前景，大多数工作都集中在单智能体场景中，而先前在多智能体场景中引入DT策略的尝试主要集中在启发式设计上，这些设计并未提供关于预期回报的任何定量保证。在本文中，我们建立了预言专家策略和最优决策树策略之间回报差距的上界。这使我们能够将DT提取问题重新表述为一个新颖的非欧几里得聚类问题，该问题针对每个智能体的局部观测和动作值空间，动作值作为聚类标签，回报差距的上界作为聚类损失。通过由以其他智能体的当前DT为条件的动作值函数引导的迭代增长DT程序，该算法和上界都扩展到多智能体分散式DT提取。此外，我们提出了回报差距最小化决策树（RGMDT）算法，这是一种令人惊讶的简单设计，并通过利用新颖的正则化信息最大化损失与强化学习相集成。在D4RL等任务上的评估表明，RGMDT 显著优于基于启发式DT的基线，并且在给定的DT复杂性约束（例如，DT节点的最大数量）下可以实现接近最优的回报。