LLM2D

摘要

在多任务强化学习中，智能体在固定的一组任务上进行训练，并需要泛化到新的任务。最近的研究表明，增加探索可以提高这种泛化能力，但其背后的确切原因仍不清楚。本文引入了多任务强化学习中的可达性概念，并证明了初始探索阶段会增加智能体在训练中所接触到的可达任务数量。正是这种增加，而不是探索本身，导致了泛化能力的提高，即使是对于不可达任务也是如此。受此启发，我们提出了一种新的方法 Explore-Go，该方法在每集开始时实施了这样的探索阶段。Explore-Go 仅修改了经验收集方式，可以与大多数现有的基于策略或离策略的强化学习算法结合使用。我们证明了该方法与一些流行算法结合使用时的有效性，并在多个环境中展示了泛化性能的提升。