LLM2D

摘要

arXiv:2502.05573v1 交叉公告类型：cross 摘要：多智能体强化学习（MARL）通常依赖于参数共享（PS）以高效扩展。然而，完全共享的策略会限制每个智能体的独特专业化，从而在异构环境中降低整体性能。我们提出了**低秩智能体特定适应（LoRASA）**，这是一种新颖的方法，将每个智能体的策略视为从共享骨干微调的专业化“任务”。受参数高效迁移方法的启发，LoRASA 在共享策略的每一层后面附加了小的低秩适应矩阵，自然地引入了参数空间稀疏性，促进了专业化和可扩展性。我们在包括星际争霸多智能体挑战（SMAC）和多智能体MuJoCo（MAMuJoCo）等具有挑战性的基准上评估了LoRASA，将其实现于广泛使用的算法如MAPPO和A2PO之上。在多种任务中，LoRASA 在降低内存和计算开销的同时与现有baseline匹配或超越baseline。通过对适配器秩、位置和时间的研究验证了该方法的灵活性和效率。我们的结果表明LoRASA 有可能确立MARL策略参数化的新规范：共享的协调基础与低秩智能体特定改进相结合。