LLM2D

摘要

arXiv:2502.13731v2 公告类型: 替换摘要：本文解决了现有马尔可夫决策过程（MDP）反事实推理方法的一个关键局限性。当前的方法假设特定的因果模型以便使反事实可识别。然而，在一个MDP中，通常存在许多与观测分布和干预分布相一致的因果模型，每个模型都会导出不同的反事实分布，因此固定一个特定的因果模型会限制反事实推理的有效性（及其实用性）。我们提出了一种新颖的非参数方法，该方法在所有兼容的因果模型中计算反事实过渡概率的紧界。不同于之前需要求解难以处理的大型优化问题（变量随着MDP规模的增大呈指数增长）的方法，我们的方法提供了这些界的具体表达式，使得计算对于非平凡的MDP来说既高效又可扩展。一旦构造了这样的区间反事实MDP，我们的方法就能识别出针对不确定的区间MDP概率优化最坏情况奖励的稳健反事实策略。我们在各种案例研究中评估了我们的方法，展示了它相比现有方法的优越稳健性。