LLM2D

摘要

arXiv:2409.16791v3 宣告类型: replace-cross 摘要：表格强化学习方法不能直接操作连续状态空间。解决这一问题的一种方法是对状态空间进行分区。一个好的分区能够在学习过程中促进泛化，并更有效地利用先前的经验。因此，学习过程变得更快，并且生成更可靠的政治。然而，分区引入了近似，特别是在状态组件之间存在非线性关系时，这种近似尤为有害。理想的分区应该是尽可能粗略，同时为给定的问题捕捉状态空间的关键结构。本研究通过符号执行从环境动态中提取分区。我们表明，符号分区提高了对环境行为的状态空间覆盖，并使强化学习在稀疏奖励情况下表现更好。我们从精度、可扩展性、学习智能体性能和学到的政治的状态空间覆盖的角度评估符号状态空间分区。