摘要
arXiv:2503.20688v1 宣告类型: 新
摘要: 随着生产者和消费者(prosumers)的出现以及对更清洁能源解决方案的需求,电力网络管理的复杂性不断增加,这需要创新的方法以确保稳定性和效率。本文提出了一种在无模型框架下的新型强化学习方法,旨在在无需先验专家知识的情况下优化电力网络运营。我们引入了一个掩码拓扑动作空间,使代理能够在保证可靠服务的同时,利用状态逻辑作为选择适当动作的指南,探索减少成本的多种策略。通过在模拟的5个变电站环境中的20个不同情景下进行广泛的实验,我们证明了我们的方法能够一致地减少电力损失,并确保在潜在断电的情况下保持电网稳定性。这些结果强调了动态观测形式化与对手训练相结合的有效性,展示了在现代能源系统中自主管理解决方案的一个可行途径,甚至为该领域的基础模型提供了一种途径。