LLM2D

摘要

arXiv:2412.10381v4 宣布类型: replace-cross 摘要: 在短视频和直播流混合推荐场景下，直播流推荐系统(RS)决定是否将最多一个直播流分配给每个用户请求。为了最大化长期用户参与度，确定一个准确的直播流分配策略至关重要。不合适的直播流分配策略会严重影响使用应用程序的时长和用户留存，而忽视了直播流分配的长期负面影响。最近，强化学习(RL)在推荐系统中被广泛应用于捕捉长期用户参与度。然而，传统RL算法经常面临发散和不稳定的问题，这限制了其在大规模工业推荐系统中的应用，尤其是在上述具有挑战性的场景中。为了解决这些挑战，我们提出了一种新的监督学习增强多组演员评论家算法(SL-MGAC)。具体来说，我们引入了一种监督学习增强的演员评论家框架，其中结合了方差减少技术，多任务奖励学习有助于在评论家学习过程中限制自举误差的累积。此外，我们为演员和评论家网络设计了一个多组状态分解模块，以减少预测方差并提高模型稳定性。我们还提出了一种新的奖励函数，以防止过于贪婪的直播流分配。通过实证研究，我们使用离线策略评估(OPE)和在线A/B测试来评估SL-MGAC算法。实验结果表明，所提出的方法不仅在平台级约束下优于基线方法，而且在在线推荐场景中表现出更好的稳定性。