LLM2D

摘要

arXiv:2504.03420v1 交叉公告类型摘要：在具有稀疏奖励的环境中处理问题一直是为自主开放性学习环境开发的系统中的关键问题。内在动机可能是帮助深度强化学习算法在这种场景中学习的有效方法。事实上，当外部奖励延迟或不存在时，新颖性或好奇心等内在奖励信号通常被采用以改善探索。在前人工作的基础上，我们提出了一种两层架构来解决在稀疏奖励存在下的政策学习问题，该架构交替进行“由内在驱动的”探索和自主子目标生成阶段，以及稀疏奖励目标导向的政策学习阶段。这一想法是构建多个专门针对特定子路径的小网络，并将它们用作未来探索的起点，而无需从头开始探索之前学习的路径。在Gym SuperMarioBros环境中，系统的不同版本没有考虑任何额外的外部奖励进行了训练和测试。结果表明了我们方法的有效性，并强调了自主对环境进行分区以生成通向最终目标的有效路径的重要性。