LLM2D

摘要

零样本协作（ZSC）是一种新的多智能体强化学习（MARL）挑战，旨在训练一个自我代理，使其能够在部署期间与各种未见过的伙伴合作。部署时伙伴分布与训练算法确定的训练伙伴分布之间存在显著差异，这使得 ZSC 成为一种独特的分布外（OOD）泛化挑战。评估与部署时伙伴之间的潜在分布差距会导致评估不足，而缺乏合适的评估指标加剧了这种情况。在本文中，我们介绍了 ZSC-Eval，这是第一个针对 ZSC 算法的评估工具包和基准。ZSC-Eval 包含：1）通过行为偏好奖励生成评估伙伴候选者，以近似部署时伙伴的分布；2）通过最佳响应多样性（BR-Div）选择评估伙伴；3）通过最佳响应接近度（BR-Prox）指标，使用各种评估伙伴测量泛化性能。我们使用 ZSC-Eval 在 Overcooked 和 Google Research Football 环境中对 ZSC 算法进行基准测试，并获得了新的经验发现。我们还对当前的 ZSC 算法进行了人类实验，以验证 ZSC-Eval 与人类评估的一致性。ZSC-Eval 现已在 https://github.com/sjtu-marl/ZSC-Eval 上提供。