LLM2D
过热烹饪泛化挑战
The Overcooked Generalisation Challenge
作者: Constantin Ruhdorfer, Matteo Bortoletto, Anna Penzkofer, Andreas Bulling
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2406.17949v2

摘要

arXiv:2406.17949v2 宣告类型: replace-cross 摘要: 我们引入了Overcooked泛化挑战(OGC)——这是第一个研究代理在面对新伙伴和新关卡时的零样本合作能力的基准。这一视角与大量之前仅在相同关卡上训练和评估合作代理的研究形成了鲜明对比,未能捕捉到现实世界中人类与AI合作所需的泛化能力。该挑战采用最先进的双重课程设计(DCD)方法生成自动生成的课程,用于在Overcooked中训练通用代理。这是第一个专门为DCD方法设计的合作多代理环境,因此也是第一个使用最先进的方法进行基准测试的环境。它完全基于GPU加速,并基于DCD基准套件minimax构建,以开源许可证免费提供:https://git.hcics.simtech.uni-stuttgart.de/public-projects/OGC。我们展示了当前的DCD算法在这一新颖的挑战中难以生成有用策略,即使与旨在实现可扩展性和泛化的最近网络架构结合使用。OGC通过使研究界能够研究泛化对合作代理的影响,推动了现实世界中人类与AI合作的界限。