LLM2D

摘要

arXiv:2504.13351v1 交叉类型: cross 摘要：从人类视频中学习执行操作任务是一种有前景的方法，用于教导机器人。然而，许多操作任务在执行过程中需要更改控制参数，例如力，这仅靠视觉数据无法捕捉到。在这项工作中，我们利用诸如臂带等传感设备来测量人类肌肉活动，以及录音设备来记录声音，以捕捉人类操作过程中的详细信息，并使机器人能够提取任务计划和控制参数以执行相同的任务。为了实现这一目标，我们引入了多模态链（CoM），这是一种提示策略，使视觉语言模型能够处理多模态的人类示范数据——视频与肌肉或音频信号的结合。通过逐步集成每个模态的信息，CoM 逐步细化任务计划并生成详细的控制参数，从而使机器人能够基于单个多模态人类视频提示执行操作任务。我们的实验表明，与基线相比，CoM 在提取任务计划和控制参数方面的准确性提高了三倍，具有强大的通用性，适用于现实世界机器人实验中的新任务设置和新对象。相关视频和代码可在 https://chain-of-modality.github.io 获取。