LLM2D
条件因果多臂bandit问题的最小搜索空间
The Minimal Search Space for Conditional Causal Bandits
作者: Francisco N. F. Q. Simoes, Itai Feigenbaum, Mehdi Dastani, Thijs van Ommen
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06577v1

摘要

arXiv:2502.06577v1 宣告类型:交叉 摘要:因果知识可以用于支持决策问题。这一点已经在因果赌局文献中得到了认识,其中的因果(多臂)赌局由因果图模型和目标变量来表征。臂代表对因果模型的干预,奖赏则是目标变量的样本。因果赌局最初的研究主要集中在硬干预上。我们则关注臂作为条件干预的情况,这更准确地模拟了许多现实世界中的决策问题,因为它允许介入变量的值基于其他观察到的变量值来选择。本文提出了一个图形化的表征,以确保该表征中包含最大化期望奖励的最优条件干预的最小节点集。然后,我们提出了一种时间复杂度为 \(O(|V| + |E|)\) 的高效算法来识别这个最小节点集。我们证明了该图形表征及所提出的算法是正确的。最后,我们通过实验证明,在将该算法整合到标准多臂赌局算法中时,它显著减少了搜索空间并大幅加速了收敛速度。