LLM2D

摘要

arXiv:2410.01706v2 宣告类型: replace-cross 摘要：随着多智能体强化学习（MARL）向着解决更大规模和更复杂问题的方向前进，算法表现出以下关键性质的重要性不断增加：(1) 强大的性能，(2) 内存效率以及 (3) 可扩展性。在这项工作中，我们提出了 Sable，这是一种高性能、内存高效且可扩展的序列建模方法，用于 MARL。Sable 通过将 Retentive Networks 中的保留机制进行调整，实现在具有长期上下文记忆的多智能体观察方面的计算效率的处理以实现时间推理。通过在六个不同环境中的广泛评估，我们展示了 Sable 能够在众多多样化任务（45个测试任务中的34个）中显著超越现有最先进的方法。此外，随着智能体数量的增加，Sable 维持性能，能够处理超过一千个智能体的环境，并且其内存使用量呈现线性增加。最后，我们进行了消融研究以分离 Sable 性能提升的来源，并确认了其高效的计算内存使用。