LLM2D

摘要

arXiv:2505.09412v1 宣告类型: 新摘要: 假想情况在AI中广泛用于解释少量改变模型输入如何导致不同的输出。然而，现有的计算假想情况的方法通常专注于单一决策步骤，不直接适用于顺序决策任务。本文通过引入马尔可夫决策过程（MDP）的假想策略来填补这一空白。在MDP执行期间，策略决定执行哪些具有已知概率效应的可用动作。给定一个初始策略，该策略以高于某个阈值的概率达到一个不希望的结果，我们识别出对初始策略进行最小化的改变，以使得该概率低于阈值。我们将这样的假想策略编码为非线性优化问题的解，并进一步扩展编码来合成多样化的假想策略。我们在四个真实世界的数据集上评估了我们的方法，并展示了其在复杂顺序决策任务中的实际可行性。