LLM2D

摘要

arXiv:2504.21383v1 通知类型: 交叉摘要：在先进（SOTA）离线强化学习（RL）方面，最近的进步主要集中在解决函数近似的误差问题，这会导致对分布外动作的Q值的过度估计，而静态数据集加剧了这一挑战。然而，在在线游戏中的推荐系统等高风险应用中，由于玩家的心理（意图）受到游戏体验的影响，以及平台固有的不稳定因素，带来了额外的复杂性。这些因素在各政策之间创建了高度稀疏、部分重叠的状态空间，并且在实验路径选择逻辑的影响下，进一步偏向于特定的政策，从而偏倚状态空间。当前的SOTA方法通过将已知的反事实动作剪切为分布外的状态，限制了从这种离线数据中学习的能力，因为这些动作在未观察到的状态上表现不佳。这进一步加剧了保守的Q学习，并需要更多的在线探索。FAST-Q 引入了一种新颖的方法，该方法通过（1）利用梯度反转学习来构建平衡的状态表示，从而使玩家的状态和动作之间的政策特定偏差正则化，从而实现反事实估计；（2）在静态数据利用的同时支持并行的离线反事实探索；以及（3）提出了一种Q值分解策略以实现多目标优化，并促进基于短期和长期目标的可解释推荐。这些创新证明了FAST-Q优于先前的SOTA方法，并展示了在我们的易变游戏平台上，玩家收益增加了至少0.15%，终身价值（LTV）提高了2%，由推荐驱动的参与度增强了0.4%，玩家的平台停留时间提高了2%，以及在推荐方面的成本减少了令人印象深刻的10%。