LLM2D

摘要

arXiv:2504.18794v1 公告类型: 新增摘要: 分层强化学习（HRL）假设能够在稀疏奖励方案下利用机器人学习任务中存在的固有层次结构，与传统的强化学习算法不同。在本研究中，分层强化学习被评估并与标准强化学习在复杂导航任务中进行对比。我们评估了分层强化学习的独有特性，包括其创建子目标的能力和终止函数。我们构建了实验以测试PPO与HRL之间的差异、不同的子目标创建方法、手动与自动子目标创建以及终止频率对性能的影响。这些实验突显了分层强化学习的优势及其如何实现这些优势。