LLM2D
使用LLM引导的语义层次强化学习的选项发现
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning
作者: Chak Lam Shek, Pratap Tokekar
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2503.19007v1

摘要

arXiv:2503.19007v1 公告类型:交叉 摘要:大规模语言模型(LLMs)在推理和决策方面展现了显著的潜力,但它们与强化学习(RL)在复杂机器人任务中的集成仍然未被充分探索。本文提出了一种基于LLM的层次化RL框架,称为LDSC,该框架利用LLM驱动的子目标选择和选项重用,以提高采样效率、泛化能力和多任务适应性。传统的RL方法通常面临探索效率低下和计算成本高的问题。层次化RL有助于解决这些问题,但现有方法在面对新任务时往往无法有效地重用选项。为了解决这些局限性,我们引入了一个三阶段框架,该框架利用LLMs根据任务的自然语言描述生成子目标、一种可重用选项的学习和选择方法以及一个动作级策略,从而在多种任务中实现更有效的决策。通过将LLMs用于子目标预测和策略指导,我们的方法提高了探索效率并增强了学习性能。LDSC在平均奖励上平均优于基线55.9%,证明了其在复杂RL设置中的有效性。更多细节和实验视频可在 \href{https://raaslab.org/projects/LDSC/}{该链接\footnote{https://raaslab.org/projects/LDSC}} 中找到。