摘要
表格型强化学习方法无法直接在连续状态空间上运作。针对这一问题,一种解决方案是对状态空间进行划分。良好的划分能够在学习过程中实现泛化,并更有效地利用先前的经验。因此,学习过程变得更快,并产生更可靠的策略。然而,划分会引入近似,这在状态分量之间存在非线性关系的情况下尤其有害。理想的划分应该尽可能粗略,同时捕捉到给定问题状态空间的关键结构。这项工作通过符号执行从环境动力学中提取划分。我们表明,符号划分提高了环境行为方面的状态空间覆盖率,并允许强化学习在稀疏奖励情况下表现更好。我们评估了符号状态空间划分在精度、可扩展性、学习代理性能和学习策略的状态空间覆盖率方面的表现。