LLM2D

摘要

arXiv:2409.14872v2 宣告类型: replace-cross 摘要：强化学习方法已被用于优化推荐系统中的长期用户参与度。然而，现有的基于强化学习的推荐系统尚未充分利用跨不同平台的个体用户行为的相关性。一种可能的解决方案是将来自各种平台的数据集中到一处，并使用聚合数据进行训练。然而，这种方法会引发经济和法律方面的诸多问题，包括增加通信成本以及潜在的用户隐私威胁。为了应对这些挑战，我们提出了一种名为 FedSlate 的联邦强化学习推荐算法，该算法能够有效利用在法律层面不允许共享的信息。我们利用 SlateQ 算法来辅助 FedSlate 学习用户的长期行为并评估推荐内容的价值。我们通过联邦学习扩展了推荐系统的现有应用范围，从单一用户单一平台扩展到单一用户多平台，并通过引入联邦学习来解决跨平台学习的挑战。我们使用 RecSim 构建了一个仿真环境来评估 FedSlate，并将其性能与最先进的基准推荐模型进行了比较。实验结果表明，在各种环境设置中，FedSlate 的效果优于基线方法，并且在基线方法完全不适用的场景中，FedSlate 促进了推荐策略的学习。代码可在 \textit{https://github.com/TianYaDY/FedSlate} 获取。