摘要
arXiv:2505.09412v1 宣告类型: 新
摘要: 假想情况在AI中广泛用于解释少量改变模型输入如何导致不同的输出。然而,现有的计算假想情况的方法通常专注于单一决策步骤,不直接适用于顺序决策任务。本文通过引入马尔可夫决策过程(MDP)的假想策略来填补这一空白。在MDP执行期间,策略决定执行哪些具有已知概率效应的可用动作。给定一个初始策略,该策略以高于某个阈值的概率达到一个不希望的结果,我们识别出对初始策略进行最小化的改变,以使得该概率低于阈值。我们将这样的假想策略编码为非线性优化问题的解,并进一步扩展编码来合成多样化的假想策略。我们在四个真实世界的数据集上评估了我们的方法,并展示了其在复杂顺序决策任务中的实际可行性。