摘要
arXiv:2503.02881v2 传达类型: 替换-交叉
摘要:人类可以使用视觉和触觉完成复杂的接触丰富任务,具备快速适应环境变化和调整接触力的高反应能力;然而,机器人在这方面仍然面临挑战。现有的视觉模拟学习(IL)方法依赖于行为片段化来建模复杂行为,但在行为片段执行过程中无法即时响应实时触觉反馈。此外,大多数远程操作系统难以提供精细的触觉/力反馈,这限制了可执行的任务范围。为了解决这些问题,我们引入了TactAR,这是一种通过增强现实(AR)提供实时触觉反馈的低成本远程操作系统,以及一种新颖的缓慢-快速视觉-触觉模仿学习算法(RDP),用于学习接触丰富的操作技能。RDP采用两层层次结构:(1)低频的缓慢潜在扩散策略,在潜在空间中预测高层行为片段;(2)高频的不对称标记器,用于闭环触觉反馈控制。这一设计使得在统一框架内既能建模复杂的轨迹,又能快速生成反应行为。通过对三个具有挑战性的接触丰富任务进行广泛的评估,RDP相比于最先进的视觉IL基线方法,通过快速响应触觉/力反馈,显著提高了性能。此外,实验表明,RDP可以在不同类型的触觉/力传感器上应用。代码和视频可在https://reactive-diffusion-policy.github.io 获得。