LLM2D
马尔可夫决策过程中的稳健反事实推断
Robust Counterfactual Inference in Markov Decision Processes
作者: Jessica Lally, Milad Kazemi, Nicola Paoletti
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13731v1

摘要

arXiv:2502.13731v1 宣告类型: 新 摘要: 本文解决了现有马尔可夫决策过程(MDP)反事实推理方法的一个关键局限性。当前的方法假设了特定的因果模型以使反事实可识别。然而,通常存在多种与MDP的观测分布和干预分布相一致的因果模型,每种模型都会产生不同的反事实分布,因此固定特定的因果模型会限制反事实推理的有效性(及其有用性)。我们提出了一种新颖的非参数方法,用于在所有兼容的因果模型上计算反事实转换概率的紧界。不同于以前的方法需要解决近乎禁止的优化问题(变量数量随MDP规模呈指数增长),我们的方法提供了这些界的确切表达式,使计算对于非平凡的MDP变得非常高效且可扩展。一旦构造了这种区间反事实MDP,我们的方法就能识别出相对于不确定的区间MDP概率优化最坏情况奖励的鲁棒反事实策略。我们通过对多种案例研究进行评估,展示了与现有方法相比改进的鲁棒性。