LLM2D
多源烟雾追踪的多代理强化学习方法
Multi-source Plume Tracing via Multi-Agent Reinforcement Learning
作者: Pedro Antonio Alarcon Granadeno, Theodore Chambers, Jane Cleland-Huang
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.08825v1

摘要

arXiv:2505.08825v1 类别: cross 摘要: 工业灾难如博帕尔灾难(1984年)和阿利索峡谷天然气泄漏(2015年)表明,快速可靠的烟雾追踪算法对于保护公共健康和环境至关重要。传统方法,如梯度基方法或受生物学启发的方法,往往在现实的湍流条件下失效。为了应对这些挑战,我们提出了一种用于利用小型无人驾驶航空系统(sUAS)集群定位多个空气污染源的多智能体强化学习(MARL)算法。该方法将问题建模为部分可观测马尔可夫游戏(POMG),并采用基于长短期记忆(LSTM)的动作特定双深循环Q网络(ADDRQN),使用全部的历史动作-观察对序列,有效地近似潜在状态。与以往工作不同,我们基于高斯烟雾模型(GPM)构建了一个通用仿真环境,包含三维环境、传感器噪声、多个相互作用的智能体和多个烟雾源等现实元素。将行动历史作为输入的一部分进一步增强了模型在复杂、部分可观测环境中的适应性。广泛的仿真结果显示,我们的算法显著优于传统方法。具体来说,我们的模型仅让智能体探索环境的1.29%即可成功定位污染源。