摘要
arXiv:2504.15812v1 类型: cross
摘要: 本文探讨了在每次决策轮次收集绝对(奖励)反馈和相对(对弈)反馈的随机臂问题中这两种反馈类型的融合。我们推导出一个遗憾下界,证明有效的算法对于每种单个臂只能承受两者中较小的遗憾。我们提出了两种融合方法:(1) 一种基于消除的融合算法,它利用两种反馈类型来探索所有臂,并通过共享一个候选臂集合来统一收集到的信息;(2) 一种分解融合算法,它根据哪种反馈更有效来探索相应的臂,并且在每一轮中随机为探索分配一种反馈类型,为利用分配另一种反馈类型。由于消除融合方法中对弈消除的固有次优性,它在遗憾中经历了候选臂数量的次优乘性项。相比之下,在共同假设下,分解融合算法达到了遗憾下界的常数倍。大量的实验证明了我们算法和理论结果的有效性。