LLM2D

摘要

污水处理厂的工艺控制面临着独特的挑战，因为其动力学复杂、时间常数慢以及观测和行动中的随机延迟。这些特性使得传统的控制方法（例如比例-积分-微分控制器）在实现高效磷去除方面（这是确保环境可持续性的污水处理的关键组成部分）次优。本研究利用基于Soft Actor-Critic算法的新型深度强化学习方法解决了这些挑战，并集成了一个定制的模拟器来模拟污水处理厂固有的延迟反馈。该模拟器结合了长短期记忆网络，以实现准确的多步状态预测，从而实现逼真的训练场景。为了考虑延迟的随机性，代理在三种延迟场景下进行了训练：无延迟、恒定延迟和随机延迟。结果表明，将随机延迟纳入强化学习框架可以显著提高磷去除效率，同时降低运营成本。具体而言，与传统控制方法相比，在模拟环境中，感知延迟的代理实现了磷排放量减少36%、奖励提高55%、与法规限值的偏差降低77%以及总成本降低9%。这些发现强调了强化学习克服污水处理中传统控制策略局限性的潜力，为磷去除提供了一种自适应且经济高效的解决方案。