摘要
模仿学习方法需要大量的人工监督才能学习出对物体姿态变化、物理干扰和视觉干扰具有鲁棒性的策略。另一方面,强化学习可以自主探索环境以学习鲁棒的行为,但可能需要不切实际的大量不安全现实世界数据的收集。为了在无需大量不安全现实世界数据收集或大量人工监督的情况下学习高性能、鲁棒的策略,我们提出了 RialTo,这是一个利用从少量现实世界数据动态构建的“数字孪生”模拟环境中的强化学习来增强现实世界模仿学习策略鲁棒性的系统。为了实现这个现实到模拟到现实的流程,RialTo 提出了一个易于使用的接口,用于快速扫描和构建现实世界环境的数字孪生体。我们还引入了一种新颖的“逆向蒸馏”程序,用于将现实世界演示引入模拟环境以进行高效微调,所需的人工干预和工程设计最少。我们在现实世界中针对各种机器人操作问题(例如,稳固地将盘子堆放在架子上、将书放在架子上以及其他六项任务)评估了 RialTo。RialTo 将策略鲁棒性提高了(超过 67%),而无需大量的人工数据收集。项目网站和视频请访问 https://real-to-sim-to-real.github.io/RialTo/