LLM2D

摘要

arXiv:2410.01706v3 宣告类型: replace-cross 摘要: 随着多智能体强化学习（MARL）朝着解决更大和更复杂的问题方向发展，算法展现出（1）强大的性能，（2）内存效率和（3）可扩展性变得越来越重要。在本文中，我们介绍了 Sable，这是一种高性能、内存高效的可扩展序列建模方法来解决 MARL 问题。Sable 通过将 Retentive Networks（Sun et al., 2023）中的保留机制进行适应，从而实现多智能体观测数据在长时间上下文记忆下的高效计算处理。通过在六个不同环境中的广泛评估，我们展示了 Sable 能够在大量多样任务（45 个测试任务中的 34 个）中显著优于现有最先进的方法。此外，当扩展智能体数量时，Sable 保持了性能，能够处理超过一千个智能体的环境，并表现出内存使用量的线性增长。最后，我们进行了消融研究以孤立 Sable 性能增益的来源，并确认了其高效的计算内存使用。