LLM2D

摘要

arXiv:2406.08973v2 宣布类型: replace-cross 摘要：在大规模语言模型和计算机视觉模型中取得成功的学习上下文范式之后，最近兴起的在上下文强化学习领域正在经历快速成长。然而，其开发受到了缺乏具有挑战性的基准的限制，此前的所有实验都在简单的环境中并通过小型数据集进行。我们提出了基于XLand-MiniGrid环境的XLand-100B，这是一个大规模的在上下文强化学习数据集，作为解决这一问题的第一步。该数据集包含了近30,000个不同任务的完整学习历史，涵盖了1000亿次转换和25亿个episode。收集该数据集耗时50,000个GPU小时，这超出了大多数学术实验室的范围。随数据集一起提供工具以重现或进一步扩展之。我们还对常见的在上下文RL基线进行了基准测试，并表明它们难以泛化到新的和多样化的任务。通过这一巨大努力，我们旨在使在快速发展的在上下文强化学习领域的研究更加民主化，并为进一步扩展提供坚实的基础。