摘要
arXiv:2504.06683v1 交叉类型: cross
摘要: 超参数优化(HPO)对于强化学习(RL)取得优异性能至关重要,因为RL算法本身对超参数设置非常敏感。概率课程学习(PCL)是一种课程学习策略,旨在通过结构化代理的学习过程来提高RL性能,但有效的超参数调优仍然具有挑战性和计算上耗费资源。在本文中,我们对PCL算法在标准RL任务(包括点迷宫导航和直流电机控制)中的超参数相互作用及其对性能的影响进行了经验分析。利用结合了Optuna的树结构核估计器(TPE)的AlgOS框架,我们提出了改进超参数搜索空间的策略,以提高优化效率。此外,我们引入了一种基于SHAP的解释性方法,专门用于分析超参数的影响,提供了关于单个超参数及其相互作用如何影响RL性能的清晰见解。我们的工作贡献了实用的指导方针和解释性工具,显著提高了强化学习中超参数优化的有效性和计算可行性。