LLM2D
集中训练与分散执行框架的中央化程度足够用于多智能体 reinforcement 学习吗?
Is Centralized Training with Decentralized Execution Framework Centralized Enough for MARL?
作者: Yihe Zhou, Shunyu Liu, Yunpeng Qing, Kaixuan Chen, Tongya Zheng, Jie Song, Mingli Song
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2305.17352v2

摘要

arXiv:2305.17352v2 宣告类型: 替换 摘要:集中式训练与分散式执行(CTDE)最近已成为协同多智能体强化学习(MARL)的一个流行框架,其中智能体可以在集中式方式下使用额外的全局状态信息来指导训练,并基于分散的局部策略仅做出自己的决策。尽管取得了令人鼓舞的结果,但CTDE假设智能体策略之间是独立的,这限制了智能体在集中式训练过程中相互采用全局协作信息的能力。因此,我们认为现有的CTDE方法无法充分利用全局信息进行训练,导致联合策略探索效率低下,甚至达不到最优结果。在本文中,我们提出了一种新颖的集中式咨询与分散式剪枝(CADP)框架,该框架不仅在训练过程中允许智能体之间更有效的消息交换,还保证了执行时的独立策略。首先,CADP为智能体赋予了明确的通信渠道,使其能够寻求并从其他智能体那里获取更多集中式训练的建议。为了进一步确保分散执行,我们提出了一种平滑模型剪枝机制,逐步限制智能体之间的通信范围,同时不会削弱智能体之间的合作能力。在StarCraft II 微管理任务和Google Research足球基准上的实证评估表明,提出的框架在与最先进的方法相比时,取得了更好的性能。我们的代码将公开发布。