LLM2D

摘要

近年来，深度强化学习(RL)取得了显著进展。然而，即使对于专家来说，寻找合适的超参数配置和奖励函数仍然具有挑战性，性能严重依赖于这些设计选择。此外，大多数强化学习研究都在已知的基准测试中进行，这些基准测试中已经存在关于这些选择的知识。然而，新的实际应用往往会提出复杂的任务，对于这些任务，没有关于良好超参数和奖励函数的先验知识，因此需要从头开始推导。先前的工作已经检查了自动调整超参数或奖励函数。我们通过实验证明，强化学习算法的超参数配置和奖励函数通常是相互依赖的，这意味着如果没有其他方面的适当值，两者都不能得到充分优化。然后，我们提出了一种超参数和奖励函数联合优化的的方法。此外，我们将方差惩罚作为优化目标，以提高学习策略的稳定性。我们使用近端策略优化和软演员评论家在四个环境中进行了大量的实验。我们的结果表明，在半数环境中，联合优化比基线性能有了显著提高，在其他环境中也取得了具有竞争力的性能，而计算成本仅略微增加。这表明联合优化应该是最佳实践。