LLM2D
Dueling_bandits的在线聚类
Online Clustering of Dueling Bandits
作者: Zhiyong Wang, Jiahang Sun, Mingze Kong, Jize Xie, Qinghua Hu, John C. S. Lui, Zhongxiang Dai
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02079v1

摘要

arXiv:2502.02079v1 类型: cross 摘要: 上下文多臂博弈(MAB)是一种在不确定性下进行顺序决策的广泛使用的框架,适用于推荐系统等需要 sequential 决策的问题。在涉及大量用户的应用中,通过促进多个用户的协作,可以显著提高上下文 MAB 的性能。这已经通过多臂博弈聚类(CB)方法实现,该方法自适应地将用户分组到不同的集群中,并通过允许同一集群内的用户共享数据来实现协作。然而,传统的 CB 算法通常依赖于数值奖励反馈,这在某些实际应用中可能不实用。例如,在推荐系统中,从建议项目对之间的偏好反馈中获取反馈比绝对奖励更为现实和可靠。为了解决这一限制,我们首次引入了“多臂博弈对决算法聚类”,以基于偏好反馈实现协作决策。我们提出了两种新颖的算法:(1)线性对决多臂博弈聚类(COLDB),它将用户奖励函数建模为上下文向量的线性函数;(2)神经网络对决多臂博弈聚类(CONDB),它使用神经网络建模复杂的非线性用户奖励函数。这两种算法都经过严格的理论分析支持,证明了用户协作提高了遗憾边界。我们在合成数据集和真实世界数据集上的广泛实证评估进一步证实了我们方法的有效性,确立了它们在涉及偏好反馈的多用户实际应用中的潜在价值。