摘要
arXiv:2502.00684v1 类型: cross
摘要:深度强化学习(DRL)通过神经网络学习策略或值,成功地解决了许多复杂控制问题。然而,DRL引入的神经网络缺乏可解释性和透明性。当前的DRL解释方法大多将神经网络当作黑盒子处理,很少有方法深入探讨政策/值网络的内部机制。这种限制削弱了对代表政策的神经网络模型及其从中得出的解释的信任。在这项工作中,我们提出了一种新的基于概念的解释方法,可以在神经元层面为DRL模型提供细粒度的解释。我们的方法将原子概念形式化为状态空间上的二元函数,并通过逻辑运算构建复杂的概念。通过分析神经元激活与概念函数之间的对应关系,我们为政策/值网络中的个别神经元建立了可解释的解释。实验结果表明,我们的方法可以有效地识别出与人类理解相一致且忠实地反映了网络决策逻辑的有意义的概念,无论是在连续控制任务还是在离散决策环境中。