LLM2D

摘要

arXiv:2505.07832v1 宣布类型：交叉摘要：强化学习（RL）算法越来越多地被用于解决最优功率流（OPF）问题。然而，如何设计 RL 环境以最大化训练性能的问题仍未得到解答，无论是对于 OPF 还是一般情况。我们提出了一种利用多目标优化的通用方法来自动设计 RL 环境。为此，我们使用了超参数优化（HPO）框架，这使得可以重用现有的 HPO 算法和方法。在五个 OPF 基准问题上，我们证明了我们的自动设计方法在所有情况下都优于手工创建的基准环境设计。此外，我们使用统计分析来确定哪些环境设计决策对性能尤为重要，从而获得了多个关于如何设计 RL-OPF 环境的新的见解。最后，我们讨论了环境过度拟合所使用的 RL 算法的风险。据我们所知，这是第一个通用的自动 RL 环境设计方法。