摘要
受限强化学习 (RL) 已成为 RL 领域的一个重要研究方向,其中将约束与奖励相结合对于提高各种控制任务的安全性和性能至关重要。在建筑物供暖系统中,在保持居民热舒适性的同时优化能效可以直观地表述为一个受限优化问题。然而,用 RL 解决它可能需要大量数据。因此,一个准确且通用的模拟器是首选。在本文中,我们提出了一种新型建筑模拟器 I4B,它提供了不同用途的接口,并将一种名为具有线性平滑对数障碍函数的受限 Soft Actor-Critic (CSAC-LB) 的无模型受限 RL 算法应用于供暖优化问题。与基线算法的基准测试表明,CSAC-LB 在数据探索、约束满足和性能方面具有效率。