摘要
arXiv:2503.23101v1 通用类型: 交叉
摘要: 强化学习(RL)可以通过提供适应性强且可扩展的控制器来转变电网运营,从而对于电网去碳化至关重要。然而,现有的方法在处理现实系统中出现的复杂动力学、 aleatoric 不确定性、长期目标以及严格的物理约束方面存在困难。本文介绍了一个由电力系统运营商与法国 RTE 公司共同设计的基准 RL2Grid,该基准旨在加速电网控制的进步并促进 RL 成熟度的提升。基于 RTE France 开发的电力仿真框架,RL2Grid 通过统一接口标准化任务、状态和动作空间以及奖励结构,从而进行有系统的评估和比较 RL 方法。此外,我们整合了根据运营商专业知识制定的实际控制启发式方法和安全约束,以确保 RL2Grid 能够满足电网运行的要求。我们在 RL2Grid 中表示的电网控制任务上对流行的 RL 基线进行了基准测试,建立了参考性能指标。我们的结果和讨论突出了电网对 RL 方法的挑战,强调了开发能够处理现实物理系统的新型算法的重要性。