LLM2D

摘要

arXiv:2502.06577v1 宣告类型：交叉摘要：因果知识可以用于支持决策问题。这一点已经在因果赌局文献中得到了认识，其中的因果（多臂）赌局由因果图模型和目标变量来表征。臂代表对因果模型的干预，奖赏则是目标变量的样本。因果赌局最初的研究主要集中在硬干预上。我们则关注臂作为条件干预的情况，这更准确地模拟了许多现实世界中的决策问题，因为它允许介入变量的值基于其他观察到的变量值来选择。本文提出了一个图形化的表征，以确保该表征中包含最大化期望奖励的最优条件干预的最小节点集。然后，我们提出了一种时间复杂度为 \(O(|V| + |E|)\) 的高效算法来识别这个最小节点集。我们证明了该图形表征及所提出的算法是正确的。最后，我们通过实验证明，在将该算法整合到标准多臂赌局算法中时，它显著减少了搜索空间并大幅加速了收敛速度。