LLM2D

摘要

arXiv:2503.02881v2 传达类型: 替换-交叉摘要：人类可以使用视觉和触觉完成复杂的接触丰富任务，具备快速适应环境变化和调整接触力的高反应能力；然而，机器人在这方面仍然面临挑战。现有的视觉模拟学习（IL）方法依赖于行为片段化来建模复杂行为，但在行为片段执行过程中无法即时响应实时触觉反馈。此外，大多数远程操作系统难以提供精细的触觉/力反馈，这限制了可执行的任务范围。为了解决这些问题，我们引入了TactAR，这是一种通过增强现实（AR）提供实时触觉反馈的低成本远程操作系统，以及一种新颖的缓慢-快速视觉-触觉模仿学习算法（RDP），用于学习接触丰富的操作技能。RDP采用两层层次结构：（1）低频的缓慢潜在扩散策略，在潜在空间中预测高层行为片段；（2）高频的不对称标记器，用于闭环触觉反馈控制。这一设计使得在统一框架内既能建模复杂的轨迹，又能快速生成反应行为。通过对三个具有挑战性的接触丰富任务进行广泛的评估，RDP相比于最先进的视觉IL基线方法，通过快速响应触觉/力反馈，显著提高了性能。此外，实验表明，RDP可以在不同类型的触觉/力传感器上应用。代码和视频可在https://reactive-diffusion-policy.github.io 获得。