LLM2D

摘要

arXiv:2402.08514v2 声明类型: 替换摘要：我们的工作针对马尔可夫决策过程（MDPs）背景下反事实推理的基本问题。给定一条MDP路径$\tau$，这种推理允许我们推导出反事实路径$\tau'$，描述在不同于$\tau$中观察到的动作序列的情况下$\tau$的如果-否则版本。然而，随着反事实状态和动作逐渐偏离观察到的那些状态，观察$\tau$可能不再影响反事实世界，这意味着分析不再针对个体观察进行定制，而是产生了干预性结果而非反事实结果。尽管这个问题特指用于MDPs反事实推理的流行Gumbel-max结构因果模型，但直到现在它一直被忽视。在本文中，我们基于比较反事实分布和干预分布引入了影响的正式定义。我们设计了一种算法，以自动满足影响约束条件构建反事实模型。利用这些模型，我们推导出了不仅对给定的奖励结构最优，还能针对观察到的路径进行定制的反事实策略。尽管策略最优性和影响约束强度之间不可避免地存在权衡，但我们的实验表明，在观察的影响下仍有可能推导出（接近）最优策略。