LLM2D

摘要

arXiv:2502.13376v1 宣布类型: cross 摘要: 提高合作多智能体学习中样本效率的一种方法是将整体任务分解为可以分配给单个智能体的子任务。我们在奖励机器的背景下研究了这一问题：一种可以形式上分解为子任务的符号任务。为了处理事先不了解环境的设置，我们引入了一个可以从无模型的环境交互中学习最优分解的框架。我们的方法使用任务条件化的架构同时学习最优分解和每个子任务对应的智能体策略。通过这种方式，我们移除了人类手动设计最优分解的需要，同时保持改进的归因效率带来的样本效率优势。我们提供了在多个深度强化学习设置中的实验结果，展示了我们方法的有效性。我们的结果表明，在智能体动力学相互依赖的环境中，我们的方法仍然能够成功，这使得同步多智能体学习成为可能，这是之前工作中无法实现的。