LLM2D

摘要

arXiv:2407.13163v2 宣告类型: 替换-交叉摘要：离线强化学习（RL）是有效用于实际推荐系统的技术，因为它能够模拟动态用户兴趣并且具有交互特性。当前大多数离线 RL 推荐系统集中在基于模型的 RL 上，通过从离线数据中学习世界模型并与此模型交互来构建推荐策略。尽管这些方法在推荐性能上取得了进步，但基于模型的离线 RL 方法的效果往往受限于对奖励模型估计的准确性和模型不确定性，主要由于离线记录数据与用户在在线平台上的实际数据在交互方面的极大差异。为填补这一差距，需要更准确的奖励模型和不确定性估计。本文提出了一个名为 ROLeR 的新颖基于模型的奖励塑形方法，用于推荐系统中的奖励和不确定性估计。具体而言，设计了一种非参数化奖励塑形方法来改进奖励模型。此外，设计了一种更加灵活且更具代表性的不确定性惩罚，以满足推荐系统的需求。在四个基准数据集上的广泛实验表明，ROLeR 在与现有基线相比时实现了最先进的性能。源代码可以从 https://github.com/ArronDZhang/ROLeR 下载。