LLM2D

摘要

arXiv:2408.03093v4 宣布类型: replace-cross 摘要: 我们提出了一种数据驱动的方法，用于生成在未知随机环境下的可证明鲁棒策略。现有方法可以将单一环境建模为区间马尔可夫决策过程（IMDP），并生成具有大概率近似正确（PAC）保证性能的鲁棒策略。然而，这些方法无法处理潜在环境参数的影响。我们提出了一个基于未知参数分布的参数马尔可夫决策过程（MDP）的框架。我们为由参数引起的未知样本环境的学习和分析。然后的关键挑战是生成结合两种不确定性层次的性能保证：（1）由未知分布的参数引起的不同环境；（2）由IMDP逼近的未知环境。我们介绍了一种基于情景优化的新方法，该方法提供了单一PAC保证，量化了在未见环境中确保指定性能水平的风险水平，以及风险与性能的权衡方法。我们使用多种鲁棒策略生成方法在一系列基准测试上实现并评估了我们的框架。我们展示了我们的方法在高置信度下产生了策略性能的紧界。