摘要
从多元数据集学习通用模型在机器学习领域取得了巨大成功。然而,在机器人学中,现有的多任务学习方法通常局限于单个机器人和工作空间,而最近的一些工作,如 RT-X,需要非平凡的动作归一化过程来手动弥合不同环境中不同动作空间之间的差距。本文提出视觉运动学链作为机器人跨不同环境学习的准静态动作的精确且通用表示,无需手动调整,因为视觉运动学链可以从机器人的模型和相机参数中自动获得。我们提出了视觉运动学转换器 (VKT),一种无卷积架构,支持任意数量的相机视角,并通过单一目标进行训练,即通过最佳点集匹配预测运动学结构。我们在 Calvin、RLBench、Open-X 和真实机器人操作任务上证明了 VKT 作为通用代理优于 BC 变换器的性能。视频演示可在 https://mlzxy.github.io/visual-kinetic-chain 找到。