LLM2D

摘要

离线强化学习 (RL) 和离线多智能体强化学习 (MARL) 的发展严重依赖于高质量的预收集离线数据集，这些数据集需要能够代表现实世界的复杂性和实际应用。然而，现有的数据集往往过于简单，缺乏真实性。为了解决这一差距，我们提出了 Hokoff，这是一个全面的预收集数据集集合，涵盖了离线 RL 和离线 MARL，并附带一个强大的框架，以促进进一步的研究。这些数据来自《王者荣耀》，这是一款广为人知的复杂多人在线战术竞技 (MOBA) 游戏，其复杂性与现实生活情况非常相似。利用此框架，我们对各种离线 RL 和离线 MARL 算法进行了基准测试。我们还引入了一种针对游戏固有分层动作空间的新型基线算法。我们揭示了当前离线 RL 方法在处理任务复杂性、泛化能力和多任务学习方面的不足。