LLM2D

摘要

arXiv:2504.06683v1 交叉类型: cross 摘要: 超参数优化（HPO）对于强化学习（RL）取得优异性能至关重要，因为RL算法本身对超参数设置非常敏感。概率课程学习（PCL）是一种课程学习策略，旨在通过结构化代理的学习过程来提高RL性能，但有效的超参数调优仍然具有挑战性和计算上耗费资源。在本文中，我们对PCL算法在标准RL任务（包括点迷宫导航和直流电机控制）中的超参数相互作用及其对性能的影响进行了经验分析。利用结合了Optuna的树结构核估计器（TPE）的AlgOS框架，我们提出了改进超参数搜索空间的策略，以提高优化效率。此外，我们引入了一种基于SHAP的解释性方法，专门用于分析超参数的影响，提供了关于单个超参数及其相互作用如何影响RL性能的清晰见解。我们的工作贡献了实用的指导方针和解释性工具，显著提高了强化学习中超参数优化的有效性和计算可行性。