LLM2D

摘要

表格强化学习方法无法直接在连续状态空间上运行。解决此问题的一种方法是将状态空间进行划分。良好的划分可以使学习过程中的泛化能力增强，并更有效地利用先前的经验。因此，学习过程变得更快，并且可以产生更可靠的策略。然而，划分会引入近似误差，尤其是在状态分量之间存在非线性关系的情况下，这种误差非常有害。理想的划分应该尽可能粗略，同时捕捉到给定问题状态空间的关键结构。本研究通过符号执行从环境动力学中提取划分。我们证明了符号划分可以改善相对于环境行为的状态空间覆盖率，并允许强化学习在稀疏奖励情况下表现得更好。我们评估了符号状态空间划分在精度、可扩展性、学习代理性能和学习策略状态空间覆盖率方面的表现。