LLM2D
低秩特定代理适应(LoRASA)的多代理策略学习
Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning
作者: Beining Zhang, Aditya Kapoor, Mingfei Sun
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05573v1

摘要

arXiv:2502.05573v1 交叉公告类型:cross 摘要:多智能体强化学习(MARL)通常依赖于参数共享(PS)以高效扩展。然而,完全共享的策略会限制每个智能体的独特专业化,从而在异构环境中降低整体性能。我们提出了**低秩智能体特定适应(LoRASA)**,这是一种新颖的方法,将每个智能体的策略视为从共享骨干微调的专业化“任务”。受参数高效迁移方法的启发,LoRASA 在共享策略的每一层后面附加了小的低秩适应矩阵,自然地引入了参数空间稀疏性,促进了专业化和可扩展性。我们在包括星际争霸多智能体挑战(SMAC)和多智能体MuJoCo(MAMuJoCo)等具有挑战性的基准上评估了LoRASA,将其实现于广泛使用的算法如MAPPO和A2PO之上。在多种任务中,LoRASA 在降低内存和计算开销的同时与现有baseline匹配或超越baseline。通过对适配器秩、位置和时间的研究验证了该方法的灵活性和效率。我们的结果表明LoRASA 有可能确立MARL策略参数化的新规范:共享的协调基础与低秩智能体特定改进相结合。