LLM2D

摘要

arXiv:2302.05614v5 宣布类型: 替换-交叉摘要：本文已提交给IEEE，可能用于可能的出版。版权可能在未通知的情况下转移，之后本文可能不再可访问。无监督的跨域强化学习（RL）预训练在具有挑战性的连续视觉控制中显示出巨大的潜力，但也带来了巨大的挑战。在本文中，我们提出了一种新的、高效且有效的自监督跨域RL预训练框架，即**C**ross-domain **R**andom **P**re-**T**raining with **pro**totypes（CRPTpro）。CRPTpro解耦了数据采样和编码器预训练，提出了解耦的随机收集方法以轻松快速地生成合格的跨域预训练数据集。此外，我们提出了一种新颖的原型自监督算法，用于在不同领域中预训练一个通用的视觉编码器。在不需要微调的情况下，跨域编码器可以应用于在不同领域定义的不同下游任务，无论是已见过的任务还是未见过的任务。与近期的先进方法相比，CRPTpro在下游策略学习上表现更好，而不需要额外对探索代理进行数据采集的训练，大大减少了预训练的负担。我们在八个具有挑战性的连续视觉控制领域进行了广泛的实验，包括平衡控制、机器人移动和操作。CRPTpro在11/12个跨域下游任务上显著优于次优的Proto-RL(C)，仅使用54.5%的墙钟预训练时间，展示了最先进的预训练性能，并大幅提高了预训练效率。