LLM2D

摘要

机器人强化学习（RL）中真实世界数据的昂贵成本导致了模拟器的广泛使用。尽管在构建更好的动力学模型以使模拟器与真实世界相匹配方面进行了大量工作，但模拟和真实世界之间还存在另一种经常被忽视的不匹配，即可用训练任务的分布。这种不匹配被现有的课程学习技术进一步加剧，这些技术在不考虑其与真实世界的相关性的情况下自动改变了模拟任务分布。考虑到这些挑战，我们认为机器人RL的课程学习需要以真实世界任务分布为基础。为此，我们提出了基于真实世界的课程学习（GCL），它将课程中的模拟任务分布与真实世界对齐，并明确考虑了机器人已经完成的任务以及机器人在过去的表现。我们使用 BARN 数据集对复杂导航任务验证了 GCL，与最先进的 CL 方法和人类专家设计的课程相比，成功率分别提高了 6.8% 和 6.5%。这些结果表明，GCL 通过在自适应课程中将模拟任务分布与真实世界对齐，可以提高学习效率和导航性能。