摘要
arXiv:2502.04864v1 通告类型: cross
摘 要:在协作多智能体强化学习(MARL)中,当全局奖励稀疏且延迟时,学习有效的策略具有挑战性。这种挑战源于需在智能体和时间步骤之间分配奖励信用,而现有方法在长时间任务中往往无法有效解决这一问题。我们提出了一种新颖的方法——临时智能体奖励重分配(Temporal-Agent Reward Redistribution, $TAR^2$),该方法将稀疏的全局奖励分解为智能体特定和时间步骤特定的组件,从而为策略学习提供更频繁和准确的反馈。理论上,我们证明了(i)$TAR^2$与基于潜力的奖励塑形一致,保留与原始环境相同的最优策略;(ii)$TAR^2$保持与原始稀疏奖励下的策略梯度更新方向相同,确保无偏的信用信号。在两个具有挑战性的基准SMACLite和Google Research Football上的实验结果表明,$TAR^2$显著稳定并加速了收敛过程,在学习速度和最终性能方面均优于AREL和STAS等强基线。这些发现确立了$TAR^2$为稀疏奖励多智能体系统中智能体-时间信用分配的一个有原则且实用的解决方案。