LLM2D
强化学习的符号状态划分
Symbolic State Partitioning for Reinforcement Learning
作者: Mohsen Ghaffari, Mahsa Varshosaz, Einar Broch Johnsen, Andrzej W\k{a}sowski
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2409.16791v2

摘要

表格强化学习方法无法直接在连续状态空间上运行。解决此问题的一种方法是将状态空间进行划分。良好的划分可以使学习过程中的泛化能力增强,并更有效地利用先前的经验。因此,学习过程变得更快,并且可以产生更可靠的策略。然而,划分会引入近似误差,尤其是在状态分量之间存在非线性关系的情况下,这种误差非常有害。理想的划分应该尽可能粗略,同时捕捉到给定问题状态空间的关键结构。本研究通过符号执行从环境动力学中提取划分。我们证明了符号划分可以改善相对于环境行为的状态空间覆盖率,并允许强化学习在稀疏奖励情况下表现得更好。我们评估了符号状态空间划分在精度、可扩展性、学习代理性能和学习策略状态空间覆盖率方面的表现。