摘要
arXiv:2504.08200v1 类型:交叉
摘要:虽然经典的多臂老虎机问题假设每个臂的奖励是独立且固定的,但现实世界的应用往往涉及非固定环境和臂之间的相互依赖性。特别是,选择一个臂可能会影响其他臂的未来奖励,这种场景在现有的模型如腐烂的臂或活跃的臂等模型中并未得到充分的捕捉。为了解决这一限制,我们提出了一种影响臂问题,通过一个未知的、对称的正半定交互矩阵来建模臂间的交互,该矩阵规管臂损失的动力学。我们形式化地定义了这个问题,并建立了两个悔恨下界,包括标准UCB算法的超线性$\Omega(T^2 / \log^2 T)$下界和一个与特定算法无关的$\Omega(T)$下界,这些下界突显了该设置固有的难度。然后,我们介绍了一种基于损失动态结构定制的下置信界(LCB)估计器的新算法。在温和的假设下,我们的算法实现了悔恨$O(KT \log T)$,从时间范围依赖性来看,几乎是最优的。该算法实现简单,计算效率高。在合成数据集和真实数据集上的实证评估表明了臂间影响的存在,并证实了我们方法相比传统槽机算法的优越性能。