LLM2D

摘要

随着多智能体强化学习 (MARL) 领域向更大、更复杂的环境发展，在保持内存效率和可扩展性的同时，实现强大的性能变得越来越重要。虽然最近的研究已经取得了若干先进算法，但到目前为止，还没有一种算法能够同时完全解决所有这些关键特性。在这项工作中，我们介绍了 Sable，一种新颖且理论上可靠的算法，它将 Retentive Networks 的保留机制应用于 MARL。Sable 基于保留的序列建模架构允许对大量智能体进行计算效率高的扩展，并保持较长的时序上下文，使其非常适合大规模部分可观察环境。通过对六个不同环境的广泛评估，我们展示了 Sable 如何能够在大多数任务（45 个中的 34 个，大约 75%）中显著优于现有的最先进方法。此外，Sable 在我们扩展智能体数量时表现出稳定的性能，能够处理拥有超过一千个智能体的环境，同时内存使用量呈线性增长。最后，我们进行了消融研究，以隔离 Sable 性能提升的来源，并确认其高效的计算内存使用情况。我们的结果突出了 Sable 的性能和效率，将其定位为大规模 MARL 的领先方法。