摘要
arXiv:2502.06577v1 宣告类型:交叉
摘要:因果知识可以用于支持决策问题。这一点已经在因果赌局文献中得到了认识,其中的因果(多臂)赌局由因果图模型和目标变量来表征。臂代表对因果模型的干预,奖赏则是目标变量的样本。因果赌局最初的研究主要集中在硬干预上。我们则关注臂作为条件干预的情况,这更准确地模拟了许多现实世界中的决策问题,因为它允许介入变量的值基于其他观察到的变量值来选择。本文提出了一个图形化的表征,以确保该表征中包含最大化期望奖励的最优条件干预的最小节点集。然后,我们提出了一种时间复杂度为 \(O(|V| + |E|)\) 的高效算法来识别这个最小节点集。我们证明了该图形表征及所提出的算法是正确的。最后,我们通过实验证明,在将该算法整合到标准多臂赌局算法中时,它显著减少了搜索空间并大幅加速了收敛速度。