LLM2D
Sable:一个高性能、高效且可扩展的多智能体 reinforcement 学习序列模型
Sable: a Performant, Efficient and Scalable Sequence Model for MARL
作者: Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon du Toit, Jemma Daniel, Louay Ben Nessir, Louise Beyers, Claude Formanek, Liam Clark, Arnu Pretorius
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2410.01706v3

摘要

arXiv:2410.01706v3 宣告类型: replace-cross 摘要: 随着多智能体强化学习(MARL)朝着解决更大和更复杂的问题方向发展,算法展现出(1)强大的性能,(2)内存效率和(3)可扩展性变得越来越重要。在本文中,我们介绍了 Sable,这是一种高性能、内存高效的可扩展序列建模方法来解决 MARL 问题。Sable 通过将 Retentive Networks(Sun et al., 2023)中的保留机制进行适应,从而实现多智能体观测数据在长时间上下文记忆下的高效计算处理。通过在六个不同环境中的广泛评估,我们展示了 Sable 能够在大量多样任务(45 个测试任务中的 34 个)中显著优于现有最先进的方法。此外,当扩展智能体数量时,Sable 保持了性能,能够处理超过一千个智能体的环境,并表现出内存使用量的线性增长。最后,我们进行了消融研究以孤立 Sable 性能增益的来源,并确认了其高效的计算内存使用。