摘要
本研究比较了将强化学习算法扩展到具有选项的部分可观察马尔可夫决策过程 (POMDP) 的方法。选项的一种观点是作为时间扩展的动作,这可以通过允许代理保留超出策略上下文窗口的历史信息来实现。虽然选项分配可以使用启发式方法和手工设计的目标来处理,但在没有显式监督的情况下学习时间一致的选项和相关的子策略是一个挑战。提出了两种算法,PPOEM 和 SOAP,并对其进行了深入研究以解决这个问题。PPOEM 应用前向-后向算法(用于隐马尔可夫模型)来优化选项增强策略的预期回报。然而,这种学习方法在策略内滚动时不稳定。由于选项分配针对离线序列进行优化,其中整个剧集都可用,因此它也不适合在没有未来轨迹知识的情况下学习因果策略。作为另一种方法,SOAP 评估了最佳选项分配的策略梯度。它扩展了广义优势估计 (GAE) 的概念,通过时间传播选项优势,这与执行选项策略梯度的时间反向传播在分析上等效。这种选项策略仅取决于代理的历史,而不是未来的动作。与竞争基线进行评估后,SOAP 表现出最稳健的性能,正确地发现了 POMDP 走廊环境的选项,以及在包括 Atari 和 MuJoCo 在内的标准基准上,性能优于 PPOEM 以及 LSTM 和 Option-Critic 基线。开源代码可在 https://github.com/shuishida/SoapRL 获取。