LLM2D

摘要

arXiv:2505.03840v1 通告类型: cross 摘要：通过利用邻近用户的协作信息来更好地捕捉目标用户偏好，聚类型多臂 bandits 在推荐系统中获得了广泛关注。然而，这些方法往往缺乏对相似用户的清晰定义，并且在独特偏好用户的邻居不足时面临挑战。在这种情况下，依赖错误识别的邻居的分歧偏好可能会降低推荐质量。为了应对这些局限性，本论文提出了一种自适应协作组合型多臂 bandits 算法（CoCoB）。CoCoB 运用了创新的双向 bandits 架构，并在用户和项目两侧都应用了 bandits 原理。用户-bandits 采用增强的贝叶斯模型来探索用户相似性，并根据相似概率阈值识别邻居。项目-bandits 将项目视为杠杆，利用用户-bandits 的输出生成多样化的推荐。CoCoB 动态适应，在有可用邻居偏好时利用这些偏好，否则则专注于目标用户。在线性上下文 bandits 情境下的后悔分析和三个真实世界数据集上的实验均表明，CoCoB 的有效性，相对于现有的最先进的方法，平均提高了 2.4% 的 F1 分数。