摘要
arXiv:2409.16791v3 宣布类型: 替换-交叉
摘要:表格强化学习方法无法直接作用于连续状态空间。解决这一问题的一种方法是划分状态空间。良好的划分能够促进学习过程中的泛化,并更有效地利用先前的经验。因此,学习过程会变得更快,产生的策略也更可靠。然而,划分引入了近似,特别是在状态组件之间存在非线性关系的情况下,这种近似尤为有害。理想的划分应该尽可能粗糙,同时能够捕捉给定问题的状态空间的关键结构。本工作通过符号执行从环境动力学中提取划分。我们展示了符号划分能提高状态空间覆盖度,特别是在环境行为方面,并允许在稀疏奖励的情况下强化学习表现得更好。我们按照精度、可扩展性、学习代理性能和学习策略的状态空间覆盖度来评估符号状态空间划分。