摘要
arXiv:2505.02232v1 宣告类型: cross
摘 要: 构建响应输入提示的模型代表了机器学习中的一个变革性转变。这一范式在解决诸如杂乱环境中目标操作等机器人问题方面具有重要的潜力。在此项工作中,我们提出了一种组合可提示基础模型与强化学习(RL)的新方法,使得机器人能够以响应提示的方式执行灵巧操作任务。现有的方法难以将高层命令与精细的灵巧控制联系起来。我们通过一种记忆增强的学生-教师学习框架来填补这一空白。我们使用 Segment-Anything 2 (SAM 2) 模型作为感知骨干,从用户提示中推断出感兴趣的物体。尽管检测可能会有误差,但它们的时间序列提供了丰富的信息,供记忆增强模型进行隐式状态估计。我们的方法成功地学习了响应提示的策略,并在杂乱场景中拾取物体的演示中得到了验证。视频和代码可在 https://memory-student-teacher.github.io 获取。