LLM2D

摘要

arXiv:2502.15662v1 宣告类型: 新摘要: 强化学习的一个主要挑战是自动生成课程，以减少训练时间或在某些目标任务上提高性能。我们介绍了SEBNs（技能-环境贝叶斯网络），它们模型了一组技能、与奖励结构相关的一组目标以及一组环境特征之间的概率关系，以预测在（可能未见过的任务）上的策略性能。我们开发了一种算法，该算法使用从SEBN推断出的代理成功估计值来加权可能的下一个任务的预期改善。我们在这三个环境中评估了所得到的课程的学习益处：离散格态、连续控制和模拟机器人。结果显示，使用SEBN构建的课程经常优于其他基线方法。