LLM2D

摘要

arXiv:2505.03586v2 通告类型: replace-cross 摘要：在现实世界中的多智能体系统（MASs）中，观察延迟是普遍存在的，这阻止了智能体根据环境的真实状态做出决策。单个智能体的局部观察通常由环境中的其他智能体或动态实体的多个组件组成。这些具有不同延迟特性的离散观察组件给多智能体强化学习（MARL）带来了重大挑战。在本文中，我们首先通过扩展标准的Dec-POMDP，提出了分布式随机个体延迟部分可观测马尔可夫决策过程（DSID-POMDP）的形式化模型。然后，我们提出了一种处理随机个体延迟的MARL训练框架——彩虹延迟补偿（RDC），并推荐其组成部分模块的实现方法。我们使用标准的MARL基准测试，包括MPE和SMAC，实现了DSID-POMDP的观察生成模式。实验表明，基线MARL方法在固定和非固定延迟下遭受严重的性能下降。RDC增强的方法解决了这一问题，在某些延迟场景下显著实现了理想的无延迟性能，同时保持了一般性。我们的工作为多智能体延迟观察问题提供了新的视角，并提供了有效的解决方案框架。源代码可在https://anonymous.4open.science/r/RDC-pymarl-4512/获取。