LLM2D
Home
Arxiv
返回列表
可解释且性能更优的 POMDP 策略表示学习
Learning Explainable and Better Performing Representations of POMDP Strategies
作者:
Alexander Bork, Debraj Chakraborty, Kush Grover, Jan Kretinsky, Stefanie Mohr
发布日期:
10/3/2024
arXiv ID:
oai:arXiv.org:2401.07656v4
摘要
部分可观测马尔可夫决策过程 (POMDP) 的策略通常需要记忆。一种表示这种记忆的方法是通过自动机。我们提出了一种使用 L*-算法的修改来学习策略的自动机表示的方法。与策略的表格表示相比,得到的自动机要小得多,因此也更容易解释。此外,在学习过程中,我们的启发式方法甚至可以提高策略的性能。与直接从 POMDP 合成自动机从而解决它的方法相比,我们的方法的可扩展性要高得多。
查看原文
下载 PDF