摘要
arXiv:2503.21807v1 公告类型: cross
摘要:多智能体强化学习(MARL)面临着与单智能体RL截然不同的两个关键瓶颈:协作任务中的信用分配以及环境状态的部分可观测性。我们提出了LERO,这是一种结合大型语言模型(LLMs)与进化优化的框架,以应对这些MARL特有的挑战。该解决方案的中心在于两个LLM生成的组件:一个混合奖励函数,通过奖励分解动态分配个体信用;以及一个观察增强函数,利用推断出的环境上下文来增强部分观察。一种进化算法通过迭代的MARL训练周期优化这些组件,在此过程中,表现最佳的候选者指导后续的LLM生成。在多智能体粒子环境(MPE)中的评估表明,与基准方法相比,LERO在任务性能和训练效率上均具有优势。