摘要
arXiv:2502.10148v1 宣告类型: 新
摘要: 尽管在训练分布式人工智能(AI)方面取得了很大进步,但使用多代理强化学习(MARL)构建合作多代理系统仍面临样本效率、可解释性和可迁移性方面的挑战。与需要与环境进行大量交互的传统基于学习的方法不同,大型语言模型(LLMs)在零样本规划和复杂推理方面表现出色。然而,现有的基于LLM的方法严重依赖于基于文本的观察,并且在处理部分可观测性下的多代理交互的非马尔可夫性质方面存在困难。我们提出了COMPASS,一种新颖的多代理架构,将视觉语言模型(VLMs)与动态技能库和结构化通信相结合,用于分散式闭环决策制定。技能库从演示开始,并通过规划者引导的任务进行演化,以实现适应性策略。COMPASS在部分可观测性下的多跳通信中传播实体信息。在改进的StarCraft多代理挑战(SMACv2)上的评估表明,COMPASS在对称场景中相对于最先进的MARL算法的胜率高出30%。