摘要
arXiv:2505.03586v3 公告类型: 交叉替换
摘要:在实际世界中的多智能体系统(MASs)中,观察延迟无处不在,阻止智能体基于环境的真实状态做出决策。单个智能体的局部观察往往包括环境中的其他智能体或动态实体的多个组成部分。这些具有不同延迟特性的离散观察组成部分给多智能体强化学习(MARL)带来了重大挑战。在本文中,我们首先通过扩展标准Dec-POMDP来形式化分布式随机离散个体延迟部分可观测马尔可夫决策过程(DSID-POMDP)。接着,我们提出了彩虹延迟补偿(RDC),一个用于解决随机个体延迟的MARL训练框架,并推荐了其组成部分模块的具体实现方法。我们使用标准的MARL基准测试(包括MPE和SMAC)实现DSID-POMDP的观察生成模式。实验表明,在固定延迟和非固定延迟的情况下,基础MARL方法遭受严重的性能下降。RDC增强的方法缓解了这一问题,在某些延迟场景中实现了理想的无延迟性能,同时保持了一般性。我们的工作为多智能体延迟观察问题提供了新的视角,并提供了一个有效的解决方案框架。代码详见 https://anonymous.4open.science/r/RDC-pymarl-4512/。