摘要
arXiv:2310.01791v3 宣告类型: 替换
摘要: 在信息不完全的情况下,不确定性下的决策是许多实际自主系统的关键方面。部分可观测马尔可夫决策过程(POMDPs)提供了一种数学原理框架,用于在这些条件下制定决策问题。然而,找到POMDP的最优解一般是不可实现的。近年来,使用在线树搜索求解器从小型到中型问题放大了近似求解器。通常,这样的近似求解器只能对最优解提供概率性的或渐近性的保证。在本文中,我们推导出了离散POMDP中近似解和最优解之间的确定性关系。我们展示了在任何时间点,都可以推导出联系当前解和最优解的边界。我们展示了我们的推导为新的算法提供了一条途径,并可以附加到具有特定结构的现有算法上,从而在几乎没有计算开销的情况下提供确定性的保证。不仅我们可以验证解的质量,而且我们证明了基于确定性保证进行决策可能比没有确定性认证的原始算法展现出更优的性能。