摘要
传统的 信息论 为强化学习提供了宝贵的基石,特别是在表示学习和最大化代理探索的熵方面。然而,现有的方法主要集中在对强化学习随机变量相关的不确定性的建模,而忽略了状态和动作空间中的固有结构。在本文中,我们提出了一种基于结构信息原理的有效探索框架,即 SI2E。为了解决结构信息中单变量的局限性,定义了两个变量之间的结构互信息,并提出了一种创新的嵌入原理来捕捉与动态相关的状态-动作表示。SI2E 分析了状态-动作对之间代理策略中的价值差异,并最小化结构熵以推导出层次化的状态-动作结构,称为编码树。在这种树结构下,定义了价值条件下的结构熵,并将其最大化以设计一种内在奖励机制,避免冗余转换,并在状态-动作空间中促进更强的覆盖。在 SI2E 和经典的信息论方法之间建立了理论联系,突出了我们框架的合理性和优势。在 MiniGrid、MetaWorld 和 DeepMind Control Suite 基准上的综合评估表明,SI2E 在最终性能和样本效率方面显著优于最先进的探索基线,最大改进分别为 37.63% 和 60.25%。