LLM2D

摘要

arXiv:2502.13731v1 宣告类型: 新摘要: 本文解决了现有马尔可夫决策过程（MDP）反事实推理方法的一个关键局限性。当前的方法假设了特定的因果模型以使反事实可识别。然而，通常存在多种与MDP的观测分布和干预分布相一致的因果模型，每种模型都会产生不同的反事实分布，因此固定特定的因果模型会限制反事实推理的有效性（及其有用性）。我们提出了一种新颖的非参数方法，用于在所有兼容的因果模型上计算反事实转换概率的紧界。不同于以前的方法需要解决近乎禁止的优化问题（变量数量随MDP规模呈指数增长），我们的方法提供了这些界的确切表达式，使计算对于非平凡的MDP变得非常高效且可扩展。一旦构造了这种区间反事实MDP，我们的方法就能识别出相对于不确定的区间MDP概率优化最坏情况奖励的鲁棒反事实策略。我们通过对多种案例研究进行评估，展示了与现有方法相比改进的鲁棒性。