LLM2D

摘要

相对过度泛化（RO）是一种病态现象，当合作多智能体任务中最优联合动作的效用低于次优联合动作时可能出现。RO会导致智能体陷入局部最优或无法解决需要在特定时间步内进行显著协调的合作任务。在这项工作中，我们通过实验证明，在多智能体强化学习（MARL）中，基于价值和策略梯度的MARL算法都可能遭受RO的影响，并且无法学习到有效的协调政策。为了更好地克服RO，我们提出了一种新的方法，称为相对过度泛化的课程学习（CURO）。为了解决表现出强RO的目标任务，在CURO中，我们首先微调目标任务的奖励函数以生成源任务来训练智能体。然后，为了有效地将一个任务中获得的知识转移到下一个任务中，我们使用了一种结合价值函数转移和缓冲区转移的迁移学习方法，从而在目标任务中实现更高效的探索。CURO是通用的，可应用于基于价值和策略梯度的MARL方法。我们展示了在应用于QMIX、HAPPO和HATRPO时，CURO可以成功克服严重的RO，取得更好的性能，并在各种具有挑战性的合作多智能体任务中超越基线方法。