摘要
强化学习 (RL) 中的一个基本挑战是将一个复杂的任务分解成对 RL 智能体更容易学习的子任务。本文报告了我们使用一些给定的正负轨迹来识别子任务的工作。我们假设状态由一阶谓词逻辑表示,并在此基础上设计了一种新算法来识别子任务。然后,我们使用大型语言模型 (LLM) 生成用于完成每个子任务的一阶逻辑规则模板。这些规则随后通过基于归纳逻辑编程 (ILP) 的 RL 智能体进一步微调为基于规则的策略。通过实验,我们验证了我们的算法在检测子任务方面的准确性,该算法成功地正确检测了所有子任务。我们还研究了语言模型生成的用于完成子任务的常识规则的质量。我们的实验表明,我们的 LLM 引导的规则模板生成可以生成解决子任务所必需的规则,从而在对环境的预定义一阶逻辑谓词做出较少假设的情况下解决复杂的任务。