LLM2D

摘要

arXiv:2410.20092v2 宣告类型: replace-cross 摘要：离线目标导向强化学习（GCRL）在强化学习（RL）中是一个主要问题，因为它提供了一种简单、无监督且跨领域的途径，可以从未标记数据中获取多样化的行为和表示，而无需奖励。尽管这一设置的重要性不言而喻，但我们缺乏一个能够系统评估离线GCRL算法能力的标准基准。在本文中，我们提出了OGBench，这是一个新的高质量基准，用于离线目标导向RL算法研究。OGBench包括8种类型的环境、85个数据集以及6种代表性离线GCRL算法的参考实现。我们设计了这些具有挑战性和现实性的环境和数据集，直接探讨不同算法的能力，例如缝合、长时域推理以及处理高维输入和随机性的能力。虽然代表性算法在先前的基准上可能表现出相似的排名，但我们的实验揭示了这些不同能力的明显优势和劣势，为构建新的算法提供了坚实的基础。项目页面：https://seohong.me/projects/ogbench