摘要
零样本协作(ZSC)是一种新的多智能体强化学习(MARL)挑战,旨在训练一个自我代理,使其能够在部署期间与各种未见过的伙伴合作。部署时伙伴分布与训练算法确定的训练伙伴分布之间存在显著差异,这使得 ZSC 成为一种独特的分布外(OOD)泛化挑战。评估与部署时伙伴之间的潜在分布差距会导致评估不足,而缺乏合适的评估指标加剧了这种情况。在本文中,我们介绍了 ZSC-Eval,这是第一个针对 ZSC 算法的评估工具包和基准。ZSC-Eval 包含:1)通过行为偏好奖励生成评估伙伴候选者,以近似部署时伙伴的分布;2)通过最佳响应多样性(BR-Div)选择评估伙伴;3)通过最佳响应接近度(BR-Prox)指标,使用各种评估伙伴测量泛化性能。我们使用 ZSC-Eval 在 Overcooked 和 Google Research Football 环境中对 ZSC 算法进行基准测试,并获得了新的经验发现。我们还对当前的 ZSC 算法进行了人类实验,以验证 ZSC-Eval 与人类评估的一致性。ZSC-Eval 现已在 https://github.com/sjtu-marl/ZSC-Eval 上提供。