LLM2D
马尔可夫决策过程中的稳健反事实推理
Robust Counterfactual Inference in Markov Decision Processes
作者: Jessica Lally, Milad Kazemi, Nicola Paoletti
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2502.13731v2

摘要

arXiv:2502.13731v2 公告类型: 替换 摘要:本文解决了现有马尔可夫决策过程(MDP)反事实推理方法的一个关键局限性。当前的方法假设特定的因果模型以便使反事实可识别。然而,在一个MDP中,通常存在许多与观测分布和干预分布相一致的因果模型,每个模型都会导出不同的反事实分布,因此固定一个特定的因果模型会限制反事实推理的有效性(及其实用性)。我们提出了一种新颖的非参数方法,该方法在所有兼容的因果模型中计算反事实过渡概率的紧界。不同于之前需要求解难以处理的大型优化问题(变量随着MDP规模的增大呈指数增长)的方法,我们的方法提供了这些界的具体表达式,使得计算对于非平凡的MDP来说既高效又可扩展。一旦构造了这样的区间反事实MDP,我们的方法就能识别出针对不确定的区间MDP概率优化最坏情况奖励的稳健反事实策略。我们在各种案例研究中评估了我们的方法,展示了它相比现有方法的优越稳健性。