LLM2D
可解释且性能更优的 POMDP 策略表示学习
Learning Explainable and Better Performing Representations of POMDP Strategies
作者: Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2401.07656v4

摘要

部分可观测马尔可夫决策过程 (POMDP) 的策略通常需要记忆。一种表示这种记忆的方法是通过自动机。我们提出了一种使用 L*-算法的修改来学习策略的自动机表示的方法。与策略的表格表示相比,得到的自动机要小得多,因此也更容易解释。此外,在学习过程中,我们的启发式方法甚至可以提高策略的性能。与直接从 POMDP 合成自动机从而解决它的方法相比,我们的方法的可扩展性要高得多。