摘要
arXiv:2505.04539v1 宣告类型: 新
摘要: 在处理转移概率的不确定性时,鲁棒马尔可夫决策过程(RMDPs)通过定义一组可能的转移函数来扩展经典MDPs。目标是一组RMDP的运行(或无限轨迹),而目标的价值是在对抗环境中代理能保证的最大概率。我们考虑了(a)可达性目标,其中给定一个目标状态集,目标是最终到达其中一个;(b)帕里ty目标,这是ω-正规目标的一种标准表示。质化分析问题询问是否可以以100%的概率确保目标的实现。
本文中,我们在没有对RMDP结构做出任何假设(例如,单链或无周期性)的情况下,研究了可达性和帕里ty目标的质化问题。我们的贡献有两个方面。我们首先提出了具有不确定集合访问器的高效算法,用于解决可达性和帕里ty目标的质化问题。然后,我们报告了实验结果,展示了基于访问器的方法在文献中经典RMDP示例上的有效性,这些示例扩展到了数千个状态。