摘要
arXiv:2409.01083v4 助手类型: 替换-交叉验证
摘要: 我们提出了一种辅助机器人操作的框架,重点关注两个基本挑战: 首先,在多任务场景中高效地将大型模型适应于下游场景可用性理解任务,特别是在需要大量人力收集多任务数据的日常生活场景中;其次,通过基于视觉可用性模型来有效学习机器人的动作轨迹。我们通过使用一个参数高效的提示调优方法来应对第一个挑战,该方法将在冻结的视觉模型中添加可学习的文本提示,以预测多任务场景中的操作可用性。然后,我们提出了一种指导性监督流动匹配方法,通过可用性模型学习机器人的动作轨迹。流动匹配表示机器人的视觉运动策略为从随机航点流动到所需机器人动作轨迹的条件过程。最后,我们介绍了一个包含10种日常生活中任务的现实世界数据集,以测试我们的框架。我们广泛的评估表明,提出的提示调优方法在学习操作可用性方面取得了竞争性的性能,并且在不同数据规模下甚至优于一些其他微调协议,同时满足参数高效性。通过流动匹配学习多任务机器人动作轨迹在多个机器人操作基准中取得了始终如一的有利结果,这比一些替代的行为克隆方法更加稳定,同时也具有更快的推理速度,尽管在大多数情况下,流动匹配在扩散策略中的泛化性能略好。我们的框架通过流动匹配无缝地统一了操作可用性的学习和动作生成,适用于机器人操作。