摘要
arXiv:2502.15662v1 宣告类型: 新
摘要: 强化学习的一个主要挑战是自动生成课程,以减少训练时间或在某些目标任务上提高性能。我们介绍了SEBNs(技能-环境贝叶斯网络),它们模型了一组技能、与奖励结构相关的一组目标以及一组环境特征之间的概率关系,以预测在(可能未见过的任务)上的策略性能。我们开发了一种算法,该算法使用从SEBN推断出的代理成功估计值来加权可能的下一个任务的预期改善。我们在这三个环境中评估了所得到的课程的学习益处:离散格态、连续控制和模拟机器人。结果显示,使用SEBN构建的课程经常优于其他基线方法。