LLM2D

摘要

arXiv:2408.11052v3 宣告类型: replace-cross 摘要：自我监督有望变革强化学习（RL），类似于它在其他机器学习领域实现的突破。虽然其他领域的自我监督学习旨在在一个固定的数据集中发现模式，自我监督的目标条件强化学习（GCRL）代理通过学习在与环境进行无结构交互过程中实现的目标来发现新的行为。然而，由于仿真环境数据不足以及缺乏稳定的算法，这些方法未能获得类似的成功。通过推出高性能的代码库和基准（JaxGCRL），我们朝着解决这两个问题迈出了一步，使研究人员能够在单个GPU上分钟内对代理进行百万环境步骤的训练。通过利用GPU加速的重播缓冲区、环境以及稳定的对比学习RL算法，我们将训练时间缩短了高达22倍。此外，我们评估了对比学习RL中的关键设计选择，确定了那些最有效地稳定和提升训练性能的选择。采用此方法，我们为未来的自监督GCRL研究奠定了基础，使研究人员能够快速迭代新想法，并在多样且具有挑战性的环境中进行评估。网站 + 代码：https://github.com/MichalBortkiewicz/JaxGCRL