LLM2D

摘要

arXiv:2503.20688v1 宣告类型: 新摘要: 随着生产者和消费者（prosumers）的出现以及对更清洁能源解决方案的需求，电力网络管理的复杂性不断增加，这需要创新的方法以确保稳定性和效率。本文提出了一种在无模型框架下的新型强化学习方法，旨在在无需先验专家知识的情况下优化电力网络运营。我们引入了一个掩码拓扑动作空间，使代理能够在保证可靠服务的同时，利用状态逻辑作为选择适当动作的指南，探索减少成本的多种策略。通过在模拟的5个变电站环境中的20个不同情景下进行广泛的实验，我们证明了我们的方法能够一致地减少电力损失，并确保在潜在断电的情况下保持电网稳定性。这些结果强调了动态观测形式化与对手训练相结合的有效性，展示了在现代能源系统中自主管理解决方案的一个可行途径，甚至为该领域的基础模型提供了一种途径。