摘要
arXiv:2502.12227v1 类别: cross
摘要:受到马尔可夫决策过程中的递归学习的启发,本文研究了每项奖励来自具有已知支持的多项分布的赌博机问题中的最优臂识别。我们比较了包括显著的LUCB在使用和不使用这种知识的情况下达到的性能。在第一种情况下,我们使用经典的非参数方法来构建置信区间。在第二种情况下,当需要估计概率分布时,我们首先在每个维度上独立使用经典的偏差界(拉霍夫丁和伯恩斯坦),然后在联合概率向量上使用经验似然方法(EL-LUCB)。通过具有不同结构复杂度级别的场景仿真,展示了这些方法的有效性。