LLM2D

摘要

arXiv:2504.05405v1 Announce Type: cross 摘要：我们研究了状态空间庞大的环境中的强化学习（RL），在这种情况下，需要使用函数近似来实现样本高效的学习。我们从先前工作的漫长历史中脱颖而出，考虑了功能近似的最弱形式，称为无知策略学习，其中学习者的目标是在给定的类别$\Pi$中找到最佳策略，没有保证$\Pi$包含底层任务的最优策略。尽管众所周知，在标准在线RL设置中，没有进一步假设下实现样本高效的无知策略学习是不可能的，但我们探讨了通过更强形式的环境访问来克服这一点的程度。具体而言，我们展示了以下几点：1. 即使策略类别是可以实现的，如果仅提供一个局部模拟器（可以从其中重置到任意之前观察到的状态）的访问，无知策略学习依然在统计上是不可解决的。这个结果与[MFR24]中在局部模拟器访问存在下的可实现性值基学习的可解决问题形成对比。2. 即使提供一个具有良好状态空间覆盖性质的重置分布的在线访问（所谓的$\mu$-重置设置），无知策略学习依然在统计上是不可解决的。我们还探讨了更强形式的功能近似在策略学习中的应用，证明了在没有策略完备性的情况下，PSDP[BKSN03]和CPI[KL02]是不可靠的。3. 面向积极的一面，我们证明了对于具有上述两种重置模型的块MDP，无知策略学习在统计上是可解决的。我们通过一个新的算法来建立这一点，该算法精心构建了一个策略仿真器：一个小状态空间的表格MDP，它可以逼近所有策略$\pi \in \Pi$的价值函数。这些价值是通过没有任何显式价值函数类的方式进行逼近的。