摘要
arXiv:2503.22020v1 交叉公告类型:
摘要:视觉-语言-行动模型(VLAs)在利用预训练的视觉-语言模型和多样的机器人示范学习通用的传感器-运动控制方面表现出潜力。尽管这个模式有效地利用了来自机器人和非机器人的大规模数据,但当前的VLAs主要关注直接的输入-输出映射,缺乏完成复杂操作任务时至关重要的中间推理步骤。因此,现有的VLAs缺乏时间规划或推理能力。在本文中,我们介绍了一种方法,该方法将显式的视觉链状思考(CoT)推理融入视觉-语言-行动模型(VLAs)中,通过在生成行动序列之前预测未来图像帧作为视觉目标来实现这些目标。我们引入了CoT-VLA,这是一种最先进的7B VLA,能够理解和生成视觉和行动令牌。我们的实验结果表明,CoT-VLA在性能上表现出色,在真实世界的操作任务中优于最先进的VLA模型17%,在模拟基准中优于6%。项目网站:https://cot-vla.github.io/