摘要
离线强化学习 (RL) 和离线多智能体强化学习 (MARL) 的发展严重依赖于高质量的预收集离线数据集,这些数据集需要能够代表现实世界的复杂性和实际应用。然而,现有的数据集往往过于简单,缺乏真实性。为了解决这一差距,我们提出了 Hokoff,这是一个全面的预收集数据集集合,涵盖了离线 RL 和离线 MARL,并附带一个强大的框架,以促进进一步的研究。这些数据来自《王者荣耀》,这是一款广为人知的复杂多人在线战术竞技 (MOBA) 游戏,其复杂性与现实生活情况非常相似。利用此框架,我们对各种离线 RL 和离线 MARL 算法进行了基准测试。我们还引入了一种针对游戏固有分层动作空间的新型基线算法。我们揭示了当前离线 RL 方法在处理任务复杂性、泛化能力和多任务学习方面的不足。