LLM2D

摘要

arXiv:2302.00671v3 公告类型: replace-cross 摘要: 多任务强化学习（MTRL）旨在通过同时学习多个任务来提高样本效率，而不是单独学习它们。传统方法通过在任务之间共享参数或重新标注的数据来实现这一点。在本文中，我们介绍了一种新的框架，用于跨任务共享行为策略，该框架可以与现有的MTRL方法结合使用。关键思想是通过采用其他任务策略的行为来改进每个任务的离策数据收集。在另一个任务中选择性地共享一个任务中获取的有益行为以收集训练数据，可以产生更高质量的轨迹，从而实现更高效的MTRL。因此，我们引入了一种简单且原理明确的框架，称为Q开关混合策略（QMP），该框架通过使用任务的Q函数来评估和选择可共享的行为，在不同的任务策略之间选择性地共享行为。我们从理论上分析了QMP如何提高底层RL算法的样本效率。我们的实验表明，QMP的行为策略共享在多种操作、运动和导航环境中提供了优于许多流行的MTRL算法的互补增益，并且优于其他行为共享方法。视频可在 https://qmp-mtrl.github.io 查看。