摘要
arXiv:2409.05655v2 宣告类型: 替换-交叉
摘要: 从演示中学习(LfD)的泛化问题近年来受到了相当大的关注,尤其是在运动原型的背景下,已经出现了一些方法。最近,两种重要的方法得到了认可。一种方法通过使用途经点局部调用技能,通过调节演示轨迹来进行微调,另一种方法依赖于所谓的任务参数化模型,该模型使用概率的乘积来表示运动,与不同的坐标系统相对应,以实现泛化。虽然前者非常适合精确的局部微调,后者则旨在在一个较大的工作空间区域中进行泛化,并且通常涉及多个对象。利用这两种方法同时提高泛化的质量几乎没有受到关注。在这项工作中,我们提出了一种交互式模仿学习框架,该框架可以同时利用轨迹分布的局部和全局调优。基于内核化的运动原型(KMP)框架,我们引入了新的机制,以从直接的人类矫正反馈中调优技能。我们的方法特别利用了途经点的概念,以增量和交互的方式 1) 逐步提高模型的局部准确性,2) 在执行过程中向任务添加新的对象,3) 将技能扩展到演示尚未提供的区域。我们使用一个具有7个自由度且受扭矩控制的DLR SARA机器人,在一个轴承环加载任务上评估了我们的方法。