LLM2D
无状态强化学习
State-free Reinforcement Learning
作者: Mingyu Chen, Aldo Pacchiano, Xuezhou Zhang
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18439v1

摘要

在这项工作中,我们研究了**无状态强化学习**问题,其中算法在与环境交互之前没有状态信息。具体来说,用 ${S}^\Pi := \{ s|\max_{\pi\in \Pi}q^{P, \pi}(s)>0 \}$ 表示可达状态集,我们设计了一种算法,该算法不需要关于状态空间 $S$ 的任何信息,同时具有与 ${S}$ 完全无关的遗憾,仅取决于 ${S}^\Pi$。我们认为这是朝着**无参数强化学习**迈出的具体第一步,其目标是设计不需要超参数调整的强化学习算法。