摘要
arXiv:2502.00040v2 通告类型: 替换-交叉
摘要:随着各个领域的电气化进程加快,需要传输更多的电力,输电网络的拥堵情况也随之增加。通过变电站重新配置进行的拓扑控制可以减少拥堵,但在操作中其潜力仍然未得到充分挖掘。一个挑战在于如何建模拓扑控制问题,以便更好地与操作者的目标和约束条件相一致。为了解决这一挑战,本文研究了多目标强化学习(MORL)在电力网络拓扑控制中应用的可能性,以整合多个冲突的目标。我们开发了一种使用深度乐观线性支持(DOL)和多目标近端策略优化(MOPPO)的方法来生成一组帕累托最优策略,这些策略在最小化线路负载、拓扑偏差和切换频率等方面实现了目标的平衡。初步的案例研究表明,MORL 方法可以提供有关目标权衡的重要见解,并且与随机搜索基线相比,可以更好地逼近帕累托前沿。生成的多目标 RL 策略在故障情况下防止电网故障的成功率比通用的单目标 RL 策略高出 30%,并且在减少训练预算的情况下更为有效 - 相比之下,通用的单目标 RL 策略更有效率。