摘要
arXiv:2502.07635v1 宣告类型: cross
摘要:我们研究了在部分可观测性条件下分布式训练的问题,其中协同多代理强化学习代理(MARL)最大化期望累积联合奖励。我们提出了一种分布式价值分解网络(DVDN),它可以生成一个可以分解为个体代理Q函数的联合Q函数。虽然原始的价值分解网络依赖于集中式训练,但我们的方法适用于集中式训练不可能的领域,这些代理必须通过在分散的方式与物理环境互动并与其同伴进行通信来学习。DVDN通过局部估计共享目标来克服集中式训练的需求。我们分别为异构代理和同构代理设置贡献了两种创新算法,DVDN和DVDN(GT)。实验结果表明,尽管在通信过程中存在信息丢失,这两种算法的性能与价值分解网络相当,在三个标准环境中的十个MARL任务中得到了验证。