LLM2D
马尔可夫决策过程中的反事实影响
Counterfactual Influence in Markov Decision Processes
作者: Milad Kazemi, Jessica Lally, Ekaterina Tishchenko, Hana Chockler, Nicola Paoletti
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2402.08514v2

摘要

arXiv:2402.08514v2 声明类型: 替换 摘要:我们的工作针对马尔可夫决策过程(MDPs)背景下反事实推理的基本问题。给定一条MDP路径$\tau$,这种推理允许我们推导出反事实路径$\tau'$,描述在不同于$\tau$中观察到的动作序列的情况下$\tau$的如果-否则版本。然而,随着反事实状态和动作逐渐偏离观察到的那些状态,观察$\tau$可能不再影响反事实世界,这意味着分析不再针对个体观察进行定制,而是产生了干预性结果而非反事实结果。尽管这个问题特指用于MDPs反事实推理的流行Gumbel-max结构因果模型,但直到现在它一直被忽视。在本文中,我们基于比较反事实分布和干预分布引入了影响的正式定义。我们设计了一种算法,以自动满足影响约束条件构建反事实模型。利用这些模型,我们推导出了不仅对给定的奖励结构最优,还能针对观察到的路径进行定制的反事实策略。尽管策略最优性和影响约束强度之间不可避免地存在权衡,但我们的实验表明,在观察的影响下仍有可能推导出(接近)最优策略。