LLM2D

摘要

在这项工作中，我们研究了**无状态强化学习**问题，其中算法在与环境交互之前没有状态信息。具体来说，用 ${S}^\Pi := \{ s|\max_{\pi\in \Pi}q^{P, \pi}(s)>0 \}$ 表示可达状态集，我们设计了一种算法，该算法不需要关于状态空间 $S$ 的任何信息，同时具有与 ${S}$ 完全无关的遗憾，仅取决于 ${S}^\Pi$。我们认为这是朝着**无参数强化学习**迈出的具体第一步，其目标是设计不需要超参数调整的强化学习算法。