摘要
arXiv:2504.13351v1 交叉类型: cross
摘要:从人类视频中学习执行操作任务是一种有前景的方法,用于教导机器人。然而,许多操作任务在执行过程中需要更改控制参数,例如力,这仅靠视觉数据无法捕捉到。在这项工作中,我们利用诸如臂带等传感设备来测量人类肌肉活动,以及录音设备来记录声音,以捕捉人类操作过程中的详细信息,并使机器人能够提取任务计划和控制参数以执行相同的任务。为了实现这一目标,我们引入了多模态链(CoM),这是一种提示策略,使视觉语言模型能够处理多模态的人类示范数据——视频与肌肉或音频信号的结合。通过逐步集成每个模态的信息,CoM 逐步细化任务计划并生成详细的控制参数,从而使机器人能够基于单个多模态人类视频提示执行操作任务。我们的实验表明,与基线相比,CoM 在提取任务计划和控制参数方面的准确性提高了三倍,具有强大的通用性,适用于现实世界机器人实验中的新任务设置和新对象。相关视频和代码可在 https://chain-of-modality.github.io 获取。