摘要
arXiv:2402.07127v2 公告类型: 替换-交叉 摘要: 机器人操作技能的学习受到多样化、无偏数据集稀缺的阻碍。虽然精心策划的数据集可以有所帮助,但在通用性和现实世界应用方面仍存在挑战。与此同时,大规模的“自然环境”视频数据集通过自监督技术推动了计算机视觉的进步。将这一概念应用于机器人技术,最近的研究探索了通过被动观看丰富的在线视频来学习操作技能。这些基于视频的学习范式展示了有希望的结果,提供了可扩展的监督,同时减少了数据集偏差。本调查回顾了视频特征表示学习技术、物体功能理解、3D手/身体建模以及大规模机器人资源等基础知识,以及从不受控视频演示中获取机器人操作技能的新兴技术。我们讨论了仅通过观察大规模人类视频如何增强机器人操作的泛化能力和样本效率。调查总结了基于视频的学习方法,分析了它们相对于标准数据集的优势,调查了评估指标和基准,并讨论了这一新兴领域在计算机视觉、自然语言处理和机器人学习交叉点上的开放挑战和未来方向。