LLM2D

摘要

arXiv:2502.14777v1 声明类型: 新摘要：开发能够解决广泛序列决策任务的一般智能体仍然是一个重大挑战。我们在这个跨智能体设置中处理这个问题，其中智能体共享相同的状态空间，但在动作空间上有所不同。我们的方法基于通用策略框架，将策略学习分为两个阶段：基于扩散的计划器生成状态序列，以及逆动力学模型将动作分配给这些计划。我们提出了一个方法，用于在由所有智能体轨迹组成的联合数据集上训练计划器。这种方法的优势在于通过汇总不同智能体的数据来实现正向迁移，而主要挑战在于使共享的计划适应每个智能体的独特约束。我们在 BabyAI 环境中评估了我们的方法，涵盖不同复杂度的任务，并展示了智能体之间的正向迁移。此外，我们还检查了计划器在未见过的智能体上的泛化能力，并将我们的方法与传统的模仿学习方法进行了比较。通过在多个智能体的联合数据集上进行训练，我们的通用策略在任务完成准确性上相比使用单个智能体数据集训练的策略提高了高达 42.20%。