摘要
arXiv:2502.02079v1 答题类型: 横跨多个领域
摘要: 上下文多臂老虎机(MAB)是一种广泛应用于需要在不确定性条件下进行顺序决策的问题的框架,如推荐系统。在涉及大量用户的应用中,通过促进多个用户的协作,可以显著提高上下文多臂老虎机的性能。这一点已经通过群集多臂老虎机(CB)方法实现,这些方法会自适应地将用户分组到不同的群集,并通过允许同一群集中的用户共享数据来实现协作。然而,经典的CB算法通常依赖于数值奖励反馈,在某些实际应用中这可能是不切实际的。例如,在推荐系统中,从推荐项目的成对偏好反馈中获得更现实和可靠的偏好反馈比获得绝对奖励更实际。为了解决这一限制,我们引入了“群集对决多臂老虎机算法”的第一个实例,以基于偏好反馈实现协作决策。我们提出了两种新的算法:(1)线性对决多臂老虎机群集(COLDB),它将用户奖励函数建模为上下文向量的线性函数;(2)神经网络对决多臂老虎机群集(CONDB),它使用神经网络来建模复杂的非线性用户奖励函数。这两种算法都得到了严格的理论分析支持,证明用户协作可以提高遗憾界。在合成数据集和真实世界数据集上的广泛实证评估进一步证实了我们方法的有效性,确立了它们在涉及具有偏好反馈的多个用户的实际应用中的潜力。