LLM2D

摘要

arXiv:2401.08957v2 宣告类型: replace-cross 摘要: 在现实世界中，由于真实世界的数据采集过程具有挑战性、耗时且昂贵，尤其对于任务失败产生的不完美数据，有效地利用数据对于机器人的操作至关重要。当前的模仿学习（IL）通常会丢弃不完美数据，仅专注于成功的专家数据。尽管强化学习（RL）可以从探索和失败中学习，但模拟到现实的差距以及其对密集奖励和在线探索的依赖性，使得其难以在真实世界场景中有效应用。在这项工作中，我们旨在通过利用不完美数据来克服不需奖励信息即可改善机器人操作模型性能的挑战。具体而言，我们提出了一种自我监督数据筛选框架（SSDF），它结合专家数据和不完美数据来计算失败轨迹片段的质量分数。高质量片段通过失败数据被用于扩展训练数据集。然后，增强的数据集可以与任何下游策略学习方法一起用于机器人操作任务。在基于高保真Sapien模拟器和使用Franka机器人臂进行的真实世界机器人操作任务的ManiSkill2基准测试中，广泛实验证明，SSDF可以准确地通过高质量的不完美数据扩展训练数据集，并提高所有机器人操作任务的成功率。