摘要
arXiv:2502.05573v1 交叉公告类型:cross
摘要:多智能体强化学习(MARL)通常依赖于参数共享(PS)以高效扩展。然而,完全共享的策略会限制每个智能体的独特专业化,从而在异构环境中降低整体性能。我们提出了**低秩智能体特定适应(LoRASA)**,这是一种新颖的方法,将每个智能体的策略视为从共享骨干微调的专业化“任务”。受参数高效迁移方法的启发,LoRASA 在共享策略的每一层后面附加了小的低秩适应矩阵,自然地引入了参数空间稀疏性,促进了专业化和可扩展性。我们在包括星际争霸多智能体挑战(SMAC)和多智能体MuJoCo(MAMuJoCo)等具有挑战性的基准上评估了LoRASA,将其实现于广泛使用的算法如MAPPO和A2PO之上。在多种任务中,LoRASA 在降低内存和计算开销的同时与现有baseline匹配或超越baseline。通过对适配器秩、位置和时间的研究验证了该方法的灵活性和效率。我们的结果表明LoRASA 有可能确立MARL策略参数化的新规范:共享的协调基础与低秩智能体特定改进相结合。