摘要
arXiv:2408.03093v5 宣告类型: replace-cross
摘要:我们提出了一种数据驱动的方法,用于生成在未知随机环境中可证明鲁棒性的策略。现有方法可以学习单一环境的模型作为区间马尔可夫决策过程(IMDP),并产生具有大概率近似正确(PAC)性能保证的鲁棒策略。然而,这些方法无法处理决定不确定性背后环境参数的影响。我们提出了一种基于参数马尔可夫决策过程(MDPs)的框架,这些过程具有未知参数分布。我们为由参数引起的多个未知样本环境学习并分析IMDP。关键挑战是生成能够结合这两层不确定性(1)由未知分布引起的多个环境;(2)由这些环境近似表示的IMDP的未知诱导环境)的有效性能保证。我们提出了一种基于情景优化的新型方法,该方法提供一个单一的PAC保证,量化了保证特定性能水平时可承受的风险水平,同时还提供了一种在风险和性能之间进行权衡的方法。我们使用多种鲁棒策略生成方法在一系列基准上实现了并评估了该框架。我们展示了我们的方法在未知环境中提供了策略性能的紧密界限,并具有很高的置信度。