LLM2D

摘要

arXiv:2502.04864v1 通告类型: cross 摘要：在协作多智能体强化学习（MARL）中，当全局奖励稀疏且延迟时，学习有效的策略具有挑战性。这种挑战源于需在智能体和时间步骤之间分配奖励信用，而现有方法在长时间任务中往往无法有效解决这一问题。我们提出了一种新颖的方法——临时智能体奖励重分配（Temporal-Agent Reward Redistribution, $TAR^2$），该方法将稀疏的全局奖励分解为智能体特定和时间步骤特定的组件，从而为策略学习提供更频繁和准确的反馈。理论上，我们证明了（i）$TAR^2$与基于潜力的奖励塑形一致，保留与原始环境相同的最优策略；（ii）$TAR^2$保持与原始稀疏奖励下的策略梯度更新方向相同，确保无偏的信用信号。在两个具有挑战性的基准SMACLite和Google Research Football上的实验结果表明，$TAR^2$显著稳定并加速了收敛过程，在学习速度和最终性能方面均优于AREL和STAS等强基线。这些发现确立了$TAR^2$为稀疏奖励多智能体系统中智能体-时间信用分配的一个有原则且实用的解决方案。