LLM2D
OGBench:offline 目标导向强化学习基准测试
OGBench: Benchmarking Offline Goal-Conditioned RL
作者: Seohong Park, Kevin Frans, Benjamin Eysenbach, Sergey Levine
发布日期: 2/14/2025
arXiv ID: oai:arXiv.org:2410.20092v2

摘要

arXiv:2410.20092v2 宣告类型: replace-cross 摘要:离线目标导向强化学习(GCRL)在强化学习(RL)中是一个主要问题,因为它提供了一种简单、无监督且跨领域的途径,可以从未标记数据中获取多样化的行为和表示,而无需奖励。尽管这一设置的重要性不言而喻,但我们缺乏一个能够系统评估离线GCRL算法能力的标准基准。在本文中,我们提出了OGBench,这是一个新的高质量基准,用于离线目标导向RL算法研究。OGBench包括8种类型的环境、85个数据集以及6种代表性离线GCRL算法的参考实现。我们设计了这些具有挑战性和现实性的环境和数据集,直接探讨不同算法的能力,例如缝合、长时域推理以及处理高维输入和随机性的能力。虽然代表性算法在先前的基准上可能表现出相似的排名,但我们的实验揭示了这些不同能力的明显优势和劣势,为构建新的算法提供了坚实的基础。项目页面:https://seohong.me/projects/ogbench