LLM2D
更紧致的价值函数approximations逼近对于POMDPs
Tighter Value-Function Approximations for POMDPs
作者: Merlijn Krale, Wietze Koops, Sebastian Junges, Thiago D. Sim\~ao, Nils Jansen
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06523v1

摘要

arXiv:2502.06523v1 宣告类型: 新 摘要: 求解部分可观测马尔可夫决策过程(POMDPs)通常需要推理大量状态信念的价值。为了获取实用性能,最先进的求解器使用价值界来引导这种推理。然而,准确的上界往往计算成本高昂,并且这样的界越紧缩,其计算成本就越高。本文引入了新的、可以证明比常用快速有信息界更紧的上界。我们的实证评估表明,尽管这些新的上界具有额外的计算开销,但它们能够在广泛的应用基准上加速最先进的POMDP求解器。