摘要
arXiv:2504.21383v1 通知类型: 交叉
摘要:在先进(SOTA)离线强化学习(RL)方面,最近的进步主要集中在解决函数近似的误差问题,这会导致对分布外动作的Q值的过度估计,而静态数据集加剧了这一挑战。然而,在在线游戏中的推荐系统等高风险应用中,由于玩家的心理(意图)受到游戏体验的影响,以及平台固有的不稳定因素,带来了额外的复杂性。这些因素在各政策之间创建了高度稀疏、部分重叠的状态空间,并且在实验路径选择逻辑的影响下,进一步偏向于特定的政策,从而偏倚状态空间。当前的SOTA方法通过将已知的反事实动作剪切为分布外的状态,限制了从这种离线数据中学习的能力,因为这些动作在未观察到的状态上表现不佳。这进一步加剧了保守的Q学习,并需要更多的在线探索。FAST-Q 引入了一种新颖的方法,该方法通过(1)利用梯度反转学习来构建平衡的状态表示,从而使玩家的状态和动作之间的政策特定偏差正则化,从而实现反事实估计;(2)在静态数据利用的同时支持并行的离线反事实探索;以及(3)提出了一种Q值分解策略以实现多目标优化,并促进基于短期和长期目标的可解释推荐。这些创新证明了FAST-Q优于先前的SOTA方法,并展示了在我们的易变游戏平台上,玩家收益增加了至少0.15%,终身价值(LTV)提高了2%,由推荐驱动的参与度增强了0.4%,玩家的平台停留时间提高了2%,以及在推荐方面的成本减少了令人印象深刻的10%。