摘要
arXiv:2412.16687v2 公告类型: 替换-交叉
摘要: 强化学习(RL)在解决复杂序列决策任务方面起着重要作用。层次化和目标导向的RL是解决RL中两个主要问题(样本效率低下和奖励塑形困难)的有前景的方法。这些方法通过将任务分解为更简单的子任务,并在动作空间中对任务进行时间抽象来解决上述问题。这些方法的任务分解过程中的一个关键组成部分是子目标发现。我们可以使用子目标状态来定义动作层次结构,也可以在分解复杂任务时使用它们。假设子目标状态更具不可预测性,我们提出了一种自由能范式来进行子目标发现。这通过在主空间和聚合空间之间使用自由能来实现。给定状态的模型从相邻状态的变化显示了该状态的不可预测性,因此在本文中用于子目标发现。我们在网格世界环境等导航任务上的实验证明,我们提出的方法可以在不了解任务先验知识的情况下应用于子目标发现。此外,我们提出的方法对环境的随机性具有鲁棒性。