LLM2D
王者荣耀真实游戏数据集及其离线强化学习基准
Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
作者: Yun Qu, Boyuan Wang, Jianzhun Shao, Yuhang Jiang, Chen Chen, Zhenbin Ye, Lin Liu, Junfeng Yang, Lin Lai, Hongyang Qin, Minwen Deng, Juchao Zhuo, Deheng Ye, Qiang Fu, Wei Yang, Guang Yang, Lanxiao Huang, Xiangyang Ji
发布日期: 11/25/2024
arXiv ID: oai:arXiv.org:2408.10556v2

摘要

离线强化学习 (RL) 和离线多智能体强化学习 (MARL) 的发展严重依赖于高质量的预收集离线数据集,这些数据集需要能够代表现实世界的复杂性和实际应用。然而,现有的数据集往往过于简单,缺乏真实性。为了解决这一差距,我们提出了 Hokoff,这是一个全面的预收集数据集集合,涵盖了离线 RL 和离线 MARL,并附带一个强大的框架,以促进进一步的研究。这些数据来自《王者荣耀》,这是一款广为人知的复杂多人在线战术竞技 (MOBA) 游戏,其复杂性与现实生活情况非常相似。利用此框架,我们对各种离线 RL 和离线 MARL 算法进行了基准测试。我们还引入了一种针对游戏固有分层动作空间的新型基线算法。我们揭示了当前离线 RL 方法在处理任务复杂性、泛化能力和多任务学习方面的不足。