LLM2D

摘要

arXiv:2505.08825v1 类别: cross 摘要: 工业灾难如博帕尔灾难（1984年）和阿利索峡谷天然气泄漏（2015年）表明，快速可靠的烟雾追踪算法对于保护公共健康和环境至关重要。传统方法，如梯度基方法或受生物学启发的方法，往往在现实的湍流条件下失效。为了应对这些挑战，我们提出了一种用于利用小型无人驾驶航空系统（sUAS）集群定位多个空气污染源的多智能体强化学习（MARL）算法。该方法将问题建模为部分可观测马尔可夫游戏（POMG），并采用基于长短期记忆（LSTM）的动作特定双深循环Q网络（ADDRQN），使用全部的历史动作-观察对序列，有效地近似潜在状态。与以往工作不同，我们基于高斯烟雾模型（GPM）构建了一个通用仿真环境，包含三维环境、传感器噪声、多个相互作用的智能体和多个烟雾源等现实元素。将行动历史作为输入的一部分进一步增强了模型在复杂、部分可观测环境中的适应性。广泛的仿真结果显示，我们的算法显著优于传统方法。具体来说，我们的模型仅让智能体探索环境的1.29%即可成功定位污染源。