LLM2D

摘要

arXiv:2503.19212v1 Announce Type: 寻找合作伙伴摘要：配有供暖、通风和空调（HVAC）系统的建筑物在确保室内舒适度和效率方面发挥着关键作用。传统上，HVAC系统由基于物理的模型管理，但大数据的出现使数据驱动的方法，如深度强化学习（DRL）成为可能。然而，基于强化学习（RL）的技术往往遭受样本效率低下和泛化能力有限的问题，尤其是在不同类型的HVAC系统之间。我们提出了一种基于模型的强化学习框架，该框架通过使用超网络在具有不同动作空间的任务中持续学习环境动力学。这使得合成回放生成高效，并提高了样本利用率。我们在此框架中训练后，在连续学习环境中展示了强大的反向迁移能力，在第二个任务上训练后，仅在第一个任务上的微调允许在5个回合内快速收敛，从而优于无模型的强化学习（MFRL），并有效地缓解了灾难性遗忘的问题。这些发现对于减少楼宇管理中的能源消耗和运营成本具有重大意义，因此支持了全球可持续发展目标。关键词：深度强化学习，HVAC系统控制，超网络，迁移和连续学习，灾难性遗忘