摘要
arXiv:2402.08514v2 声明类型: 替换
摘要:我们的工作针对马尔可夫决策过程(MDPs)背景下反事实推理的基本问题。给定一条MDP路径$\tau$,这种推理允许我们推导出反事实路径$\tau'$,描述在不同于$\tau$中观察到的动作序列的情况下$\tau$的如果-否则版本。然而,随着反事实状态和动作逐渐偏离观察到的那些状态,观察$\tau$可能不再影响反事实世界,这意味着分析不再针对个体观察进行定制,而是产生了干预性结果而非反事实结果。尽管这个问题特指用于MDPs反事实推理的流行Gumbel-max结构因果模型,但直到现在它一直被忽视。在本文中,我们基于比较反事实分布和干预分布引入了影响的正式定义。我们设计了一种算法,以自动满足影响约束条件构建反事实模型。利用这些模型,我们推导出了不仅对给定的奖励结构最优,还能针对观察到的路径进行定制的反事实策略。尽管策略最优性和影响约束强度之间不可避免地存在权衡,但我们的实验表明,在观察的影响下仍有可能推导出(接近)最优策略。