摘要
arXiv:2505.05262v1 公告类型: cross
摘要: 在没有任何通信能力的分布式不完全可观测环境中学习合作对多智能体深度强化学习(MARL)构成了重大挑战。本文关注该领域的关键问题,重点在于从个体智能体的观察中推断状态表示,并利用这些表示来增强智能体的探索和协作任务执行策略。为此,我们提出了一种新的合作MARL的状态建模框架,其中智能体推断出有意义的非可观测状态的信念表示,以优化自身策略,同时过滤掉冗余和不具信息性的联合状态信息。在此框架的基础上,我们提出了MARL SMPE算法。在SMPE中,智能体在其部分可观测性下增强自身策略的区分能力,明确地通过将信念纳入策略网络,隐式地通过采用一种对抗性的探索策略,鼓励智能体发现新颖且高价值的状态,同时提升其他智能体的区分能力。实验结果表明,SMPE在MPE、LBF和RWARE基准的复杂完全合作任务中优于最先进的MARL算法。