LLM2D
基于目标的强化学习的概率性 curriculum 学习
Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning
作者: Llewyn Salt, Marcus Gallagher
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2504.01459v1

摘要

arXiv:2504.01459v1 类别: cross 摘要: 强化学习(RL)——一种通过最大化奖励信号来教授人工代理与环境互动的算法——近年来取得了显著的成功。这些成功得益于算法(例如,深度Q学习、深度确定性策略梯度、近端策略优化、信任区域策略优化以及软演员-评论家)的进步和专用计算资源(如GPU和TPU)的支持。其中一个有前景的研究方向是引入目标以允许多模态策略,通常通过层次化或阶梯化强化学习来实现。这些方法系统地将复杂行为分解为更简单的子任务,类似于人类逐步学习技能的过程(例如,我们在学会走路之前先学会跑步,或是在学习微积分之前先学习算术)。然而,完全自动化目标创建仍是一个开放的挑战。我们提出了一种新的概率阶梯化学习算法,以建议连续控制和导航任务中的强化学习代理的目标。