LLM2D

摘要

表格型强化学习方法无法直接在连续状态空间上运作。针对这一问题，一种解决方案是对状态空间进行划分。良好的划分能够在学习过程中实现泛化，并更有效地利用先前的经验。因此，学习过程变得更快，并产生更可靠的策略。然而，划分会引入近似，这在状态分量之间存在非线性关系的情况下尤其有害。理想的划分应该尽可能粗略，同时捕捉到给定问题状态空间的关键结构。这项工作通过符号执行从环境动力学中提取划分。我们表明，符号划分提高了环境行为方面的状态空间覆盖率，并允许强化学习在稀疏奖励情况下表现更好。我们评估了符号状态空间划分在精度、可扩展性、学习代理性能和学习策略的状态空间覆盖率方面的表现。