摘要
arXiv:2505.07854v1 宣布类型: 新文章
摘要: 稀疏奖励环境在强化学习中提出了重大挑战,尤其是在多智能体系统(MAS)中,由于反馈延迟且在各个智能体之间共享,导致学习效果不佳。我们提出了协作多维度课程学习(CCL),这是一种新的课程学习框架,通过(1)细化每个智能体的中间任务,(2)使用变分进化算法生成有信息性的子任务,以及(3)智能体与其环境的协同演化来增强训练稳定性。在MPE和Hide-and-Seek环境中的五个合作任务实验中,CCL在稀疏奖励设置中表现出优于现有方法的效果。