LLM2D

摘要

传统的信息论为强化学习提供了宝贵的基石，特别是在表示学习和最大化代理探索的熵方面。然而，现有的方法主要集中在对强化学习随机变量相关的不确定性的建模，而忽略了状态和动作空间中的固有结构。在本文中，我们提出了一种基于结构信息原理的有效探索框架，即 SI2E。为了解决结构信息中单变量的局限性，定义了两个变量之间的结构互信息，并提出了一种创新的嵌入原理来捕捉与动态相关的状态-动作表示。SI2E 分析了状态-动作对之间代理策略中的价值差异，并最小化结构熵以推导出层次化的状态-动作结构，称为编码树。在这种树结构下，定义了价值条件下的结构熵，并将其最大化以设计一种内在奖励机制，避免冗余转换，并在状态-动作空间中促进更强的覆盖。在 SI2E 和经典的信息论方法之间建立了理论联系，突出了我们框架的合理性和优势。在 MiniGrid、MetaWorld 和 DeepMind Control Suite 基准上的综合评估表明，SI2E 在最终性能和样本效率方面显著优于最先进的探索基线，最大改进分别为 37.63% 和 60.25%。