LLM2D

摘要

arXiv:2504.12714v1 交叉公告类型: cross 摘要: 在一项合作任务中适应新伙伴的零样本协调（ZSC）能力是人类兼容AI的关键组成部分。尽管先前的工作侧重于训练代理在一个单一任务上的合作，但这些专门的模型并不适用于新任务，即使这些新任务与之前的任务非常相似。在这里，我们研究了在具有单一伙伴的一组环境中使用强化学习如何能够学习通用的合作技能，这些技能支持在许多新问题和许多新伙伴上应用零样本协调。我们引入了两个基于Jax的程序生成器，它们能够创建数十亿个可解的协调挑战。我们开发了一种新的范式，称为交叉环境合作（CEC），并在与真实人类合作时，它在定量和定性上都优于竞争基准。我们的发现表明，在许多独特场景中学习合作促使代理发展出通用规范，这些规范对于与不同伙伴的合作非常有效。综上所述，我们的结果表明了一条新的途径，旨在设计能够与人类交互的一般协调代理，而不需要使用人类数据。