摘要
arXiv:2503.22524v1 类别: cross
摘要: 示范学习(IL)已被证明对于通过专家示范使机器人获得知觉运动技能是有效的。然而,传统的IL方法受到其依赖高质量且往往稀缺的专家数据的限制,并且遭受协变量偏移的影响。为解决这些挑战,最近的离线IL进展将次优且未标记的数据集纳入了训练中。在本文中,我们提出了一种通过利用与任务相关的轨迹片段和丰富的环境动力学来增强从混合质量离线数据集中学习策略的新方法。具体而言,我们引入了一种基于状态的搜索框架,该框架从不完美的示范中缝合状态-动作对,生成更多多样且信息丰富的训练轨迹。在标准的IL基准测试和实际机器人任务上的实验结果展示了我们提出的方法在通用性和性能方面有了显著改进。