LLM2D

摘要

强化学习方法已被用于优化推荐系统中的长期用户参与度。然而，现有的基于强化学习的推荐系统并未充分利用不同平台上个体用户行为的相关性。一种潜在的解决方案是将来自各个平台的数据集中到一个中心位置，并使用这些聚合数据进行训练。然而，这种方法引发了经济和法律问题，包括增加的通信成本和对用户隐私的潜在威胁。为了应对这些挑战，我们提出了**FedSlate**，一种联邦强化学习推荐算法，该算法有效利用了在法律层面禁止共享的信息。我们采用SlateQ算法来辅助FedSlate学习用户的长期行为并评估推荐内容的价值。我们将推荐系统的现有应用范围从单用户单平台扩展到单用户多平台，并通过引入联邦学习来解决跨平台学习的挑战。我们使用RecSim构建了一个模拟环境来评估FedSlate，并将其性能与最先进的基准推荐模型进行比较。实验结果表明，在各种环境设置下，FedSlate在基线方法上表现出优越的效果，并且在基线方法完全不适用的情况下，FedSlate促进了推荐策略的学习。代码可在\textit{https://github.com/TianYaDY/FedSlate}获取。