LLM2D

摘要

arXiv:2504.01459v1 类别: cross 摘要: 强化学习（RL）——一种通过最大化奖励信号来教授人工代理与环境互动的算法——近年来取得了显著的成功。这些成功得益于算法（例如，深度Q学习、深度确定性策略梯度、近端策略优化、信任区域策略优化以及软演员-评论家）的进步和专用计算资源（如GPU和TPU）的支持。其中一个有前景的研究方向是引入目标以允许多模态策略，通常通过层次化或阶梯化强化学习来实现。这些方法系统地将复杂行为分解为更简单的子任务，类似于人类逐步学习技能的过程（例如，我们在学会走路之前先学会跑步，或是在学习微积分之前先学习算术）。然而，完全自动化目标创建仍是一个开放的挑战。我们提出了一种新的概率阶梯化学习算法，以建议连续控制和导航任务中的强化学习代理的目标。