LLM2D

摘要

arXiv:2505.07854v1 宣布类型: 新文章摘要: 稀疏奖励环境在强化学习中提出了重大挑战，尤其是在多智能体系统(MAS)中，由于反馈延迟且在各个智能体之间共享，导致学习效果不佳。我们提出了协作多维度课程学习(CCL)，这是一种新的课程学习框架，通过(1)细化每个智能体的中间任务，(2)使用变分进化算法生成有信息性的子任务，以及(3)智能体与其环境的协同演化来增强训练稳定性。在MPE和Hide-and-Seek环境中的五个合作任务实验中，CCL在稀疏奖励设置中表现出优于现有方法的效果。