LLM2D

摘要

arXiv:2503.21807v1 公告类型: cross 摘要：多智能体强化学习（MARL）面临着与单智能体RL截然不同的两个关键瓶颈：协作任务中的信用分配以及环境状态的部分可观测性。我们提出了LERO，这是一种结合大型语言模型（LLMs）与进化优化的框架，以应对这些MARL特有的挑战。该解决方案的中心在于两个LLM生成的组件：一个混合奖励函数，通过奖励分解动态分配个体信用；以及一个观察增强函数，利用推断出的环境上下文来增强部分观察。一种进化算法通过迭代的MARL训练周期优化这些组件，在此过程中，表现最佳的候选者指导后续的LLM生成。在多智能体粒子环境（MPE）中的评估表明，与基准方法相比，LERO在任务性能和训练效率上均具有优势。