LLM2D

摘要

arXiv:2502.11968v1 宣告类型: cross 摘要: 为高维空间设计的强化学习算法通常在采样的状态子集上强制执行贝尔曼方程，依靠泛化在状态空间中传播知识。在本文中，我们识别并形式化了这种方法的基本局限性。具体地，我们构造了一类具有简单结构的反例问题，这种方法无法利用这些结构。我们的发现表明，这些算法可能会忽略问题中的一些关键信息，导致效率低下。此外，我们将这一负面结果扩展到文献中的另一种方法：事后经验回放学习状态到状态的可达性。