LLM2D

摘要

arXiv:2504.12714v2 宣告类型: replace-cross 摘要：零样本协调（ZSC），即在合作任务中适应新伙伴的能力，是人类兼容AI的关键组成部分。尽管先前的工作关注于训练代理在单一任务上进行合作，但这些专门化的模型不能泛化到新任务，即使这些新任务与原有任务高度相似。在这里，我们研究了在单个伙伴的环境分布下利用强化学习来学习通用的协作技能，这些技能支持在许多新问题上与许多新伙伴进行ZSC。我们引入了两个基于Jax的流程生成器，生成了数十亿个可解决的协调挑战。我们开发了一种新的范式，称为跨环境合作（CEC），并证明它可以与真人协作时在定量和定性上优于竞争基准。我们的发现表明，在许多独特的场景中学习协作促使代理发展出通用规范，这些规范对于与不同伙伴合作证明是有效的。我们的研究成果共同表明了一条新的途径，用于设计能够在无需人类数据的情况下与人类交互的通用协作代理。