LLM2D

摘要

arXiv:2501.00364v2 宣告类型: 替换摘要: 奖励机器(RMs)是通过有限状态机来解决强化学习(RL)中的非马尔可夫奖励的一种有效方法。传统的RMs通过命题逻辑公式来标记边，从而继承了命题逻辑的有限表达能力。这一局限性妨碍了RMs的学习能力和迁移能力，因为复杂的任务需要大量的状态和边。为了克服这些挑战，我们提出了基于一阶逻辑的奖励机器(简称$\texttt{FORM}$s)，它们使用一阶逻辑来标记边，从而使RMs更加紧凑和易于迁移。我们介绍了一种学习$\texttt{FORM}$s的新型方法以及一种利用$\texttt{FORM}$s的多智能体形式，并促进它们的迁移性，其中多个智能体协作学习共享$\texttt{FORM}$的策略。我们的实验结果证明了$\texttt{FORM}$s相对于传统RMs的可扩展性。具体来说，我们表明$\texttt{FORM}$s能够有效学习那些传统RM学习方法失败的任务。此外，由于多智能体学习框架和提供的一阶语言的抽象，我们在学习速度和任务迁移性方面也取得了显著改进。