LLM2D

摘要

arXiv:2503.19007v1 公告类型：交叉摘要：大规模语言模型（LLMs）在推理和决策方面展现了显著的潜力，但它们与强化学习（RL）在复杂机器人任务中的集成仍然未被充分探索。本文提出了一种基于LLM的层次化RL框架，称为LDSC，该框架利用LLM驱动的子目标选择和选项重用，以提高采样效率、泛化能力和多任务适应性。传统的RL方法通常面临探索效率低下和计算成本高的问题。层次化RL有助于解决这些问题，但现有方法在面对新任务时往往无法有效地重用选项。为了解决这些局限性，我们引入了一个三阶段框架，该框架利用LLMs根据任务的自然语言描述生成子目标、一种可重用选项的学习和选择方法以及一个动作级策略，从而在多种任务中实现更有效的决策。通过将LLMs用于子目标预测和策略指导，我们的方法提高了探索效率并增强了学习性能。LDSC在平均奖励上平均优于基线55.9%，证明了其在复杂RL设置中的有效性。更多细节和实验视频可在 \href{https://raaslab.org/projects/LDSC/}{该链接\footnote{https://raaslab.org/projects/LDSC}} 中找到。