LLM2D

摘要

arXiv:2504.08417v1 宣告类型: 新作摘要：在部分可观测环境中使用强化学习通常是具有挑战性的，因为它要求代理学习系统状态的估计。在多代理环境中，这种挑战会加剧，因为在这些环境中，代理会同时学习并影响系统的潜在状态以及彼此的观察。我们提议使用学习到的系统潜在状态的信念来克服这些挑战，并实现完全分散的训练和执行环境中的强化学习。我们的方法通过自监督的方式利用状态信息预训练一种概率性信念模型。随后，这些包含推理出的状态信息及其不确定性的信念状态被用于基于状态的强化学习算法，以创建一个端到端的模型，用于在部分可观测性下进行合作多代理强化学习。通过将信念和强化学习任务分离，我们能够显著简化策略和价值函数学习任务，并提高收敛速度和最终性能。我们通过设计多种具有不同部分可观测性变体的多代理任务来评估我们提出的方法。