LLM2D

摘要

arXiv:2502.06523v1 宣告类型: 新摘要: 求解部分可观测马尔可夫决策过程（POMDPs）通常需要推理大量状态信念的价值。为了获取实用性能，最先进的求解器使用价值界来引导这种推理。然而，准确的上界往往计算成本高昂，并且这样的界越紧缩，其计算成本就越高。本文引入了新的、可以证明比常用快速有信息界更紧的上界。我们的实证评估表明，尽管这些新的上界具有额外的计算开销，但它们能够在广泛的应用基准上加速最先进的POMDP求解器。