摘要
arXiv:2505.10522v1 宣布类型:横跨领域
摘要:强化学习(RL)在机器人操作中展现了显著的潜力,但面临着样本效率低和缺乏可解释性的问题,这限制了其在实际场景中的应用。能够使智能体获得更深入的理解并在多种工作场景中更高效地适应是至关重要的,而战略性地利用知识是这一过程中的关键因素。本文提出了一个名为Knowledge Capture, Adaptation, and Composition(KCAC,知识捕获、适应与组合)的框架,通过跨任务教学有序学习系统地将知识转移整合到RL中。KCAC在CausalWorld基准测试中使用了一个双块堆叠任务进行评估,这是一个复杂的机器人操作环境。据我们所知,现有的RL方法无法有效解决这一任务,反映了知识捕获的不足。在本文中,我们通过去除刚性约束和严格的顺序,重新设计基准的奖励函数,使智能体同时最大化总奖励,并允许灵活的任务完成。此外,我们定义了两个自设计的子任务,并实现了一个结构化的跨任务教学有序学习体系,以促进高效学习。结果,我们的KCAC方法在训练时间上降低了40%,同时任务成功率提高了10%,相较于传统RL方法。通过广泛的评估,我们识别出了优化学习效率的关键教学有序设计参数,子任务选择、过渡时机和学习率,并为基于教学有序学习的RL框架提供了概念指导。这项工作为RL和机器人学习的教学有序设计提供了有价值的见解。