LLM2D
马尔可夫决策过程中的反事实策略
Counterfactual Strategies for Markov Decision Processes
作者: Paul Kobialka, Lina Gerlach, Francesco Leofante, Erika \'Abrah\'am, Silvia Lizeth Tapia Tarifa, Einar Broch Johnsen
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09412v1

摘要

arXiv:2505.09412v1 宣告类型: 新 摘要: 假想情况在AI中广泛用于解释少量改变模型输入如何导致不同的输出。然而,现有的计算假想情况的方法通常专注于单一决策步骤,不直接适用于顺序决策任务。本文通过引入马尔可夫决策过程(MDP)的假想策略来填补这一空白。在MDP执行期间,策略决定执行哪些具有已知概率效应的可用动作。给定一个初始策略,该策略以高于某个阈值的概率达到一个不希望的结果,我们识别出对初始策略进行最小化的改变,以使得该概率低于阈值。我们将这样的假想策略编码为非线性优化问题的解,并进一步扩展编码来合成多样化的假想策略。我们在四个真实世界的数据集上评估了我们的方法,并展示了其在复杂顺序决策任务中的实际可行性。