LLM2D
高效、内存友好且可扩展的多智能体强化学习
Performant, Memory Efficient and Scalable Multi-Agent Reinforcement Learning
作者: Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon du Toit, Jemma Daniel, Louay Ben Nessir, Louise Beyers, Claude Formanek, Liam Clark, Arnu Pretorius
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01706v1

摘要

随着多智能体强化学习 (MARL) 领域向更大、更复杂的环境发展,在保持内存效率和可扩展性的同时,实现强大的性能变得越来越重要。虽然最近的研究已经取得了若干先进算法,但到目前为止,还没有一种算法能够同时完全解决所有这些关键特性。在这项工作中,我们介绍了 Sable,一种新颖且理论上可靠的算法,它将 Retentive Networks 的保留机制应用于 MARL。Sable 基于保留的序列建模架构允许对大量智能体进行计算效率高的扩展,并保持较长的时序上下文,使其非常适合大规模部分可观察环境。通过对六个不同环境的广泛评估,我们展示了 Sable 如何能够在大多数任务(45 个中的 34 个,大约 75%)中显著优于现有的最先进方法。此外,Sable 在我们扩展智能体数量时表现出稳定的性能,能够处理拥有超过一千个智能体的环境,同时内存使用量呈线性增长。最后,我们进行了消融研究,以隔离 Sable 性能提升的来源,并确认其高效的计算内存使用情况。我们的结果突出了 Sable 的性能和效率,将其定位为大规模 MARL 的领先方法。