LLM2D

摘要

部分可观测马尔可夫决策过程 (POMDP) 的策略通常需要记忆。一种表示这种记忆的方法是通过自动机。我们提出了一种使用 L*-算法的修改来学习策略的自动机表示的方法。与策略的表格表示相比，得到的自动机要小得多，因此也更容易解释。此外，在学习过程中，我们的启发式方法甚至可以提高策略的性能。与直接从 POMDP 合成自动机从而解决它的方法相比，我们的方法的可扩展性要高得多。